Një studim i fundit ka zbuluar se shumica e chatbot-ëve me inteligjencë artificiale mund të mashtrohen lehtësisht për të dhënë informacione të rrezikshme apo të paligjshme. Sipas studiuesve, këta chatbot-ë, kur “çlirohen” nga kufizimet e tyre të brendshme (një proces i njohur si jailbreaking), mund të gjenerojnë përmbajtje që lidhet me aktivitet kriminal, si hakerimi, pastrimi i parave apo edhe ndërtimi i bombave.
Këto programe – si ChatGPT, Gemini apo Claude – funksionojnë duke analizuar sasi të mëdha të dhënash nga interneti. Edhe pse përpiqen të filtrojnë përmbajtjen e dëmshme gjatë trajnimit, studimi tregon se ato mund të anashkalohen me lehtësi, duke çuar në rezultate të rrezikshme për përdoruesit, raporton The Guardian.
Raporti i studiuesve thekson se kjo situatë përfaqëson një kërcënim të menjëhershëm dhe shqetësues, pasi njohuri që më parë ishin të arritshme vetëm nga aktorë shtetërorë ose rrjete kriminale, tani mund të përhapen lirshëm nga kushdo që ka një laptop apo një celular.
Çfarë është “jailbreaking”?
Një studim nga Universiteti Ben Gurion në Izrael, i udhëhequr nga prof. Lior Rokach dhe dr. Michael Fire, ka zbuluar një rrezik në rritje nga të ashtuquajturat “LLM të errëta” – modele të inteligjencës artificiale që ose krijohen pa kontrolle sigurie, ose modifikohen me qëllim për t’u bërë të paaftë për të refuzuar përgjigje të rrezikshme. Disa prej tyre qarkullojnë lirshëm në internet dhe promovohen si “pa barriera etike”.
Teknika e “jailbreaking” funksionon përmes “prompt-eve” të dizajnuara në mënyrë të zgjuar, të cilat mashtrojnë chatbot-ët që të japin përgjigje që normalisht do të ishin të ndaluara. Ato shfrytëzojnë konfliktin midis dëshirës së programit për të ndihmuar përdoruesin dhe detyrimit të tij për të shmangur përmbajtje të dëmshme.
Studiuesit krijuan një teknikë “jailbreak” universale që komprometoi disa nga chatbot-ët më të njohur, duke i bërë ata të japin informacione rreth hakerimit, drogës dhe aktiviteteve të tjera kriminale. “Ishte tronditëse të shihje se çfarë përmbante ky sistem,” tha Fire.
Kërcënimi është veçanërisht shqetësues për shkak të aksesit të lehtë, përshtatshmërisë dhe shkallës me të cilën mund të përhapet. Megjithëse studiuesit njoftuan kompanitë që menaxhojnë këto sisteme, përgjigjet ishin të vakëta. Disa nuk reaguan fare, ndërsa të tjera thanë se sulmet e tilla nuk përfshihen në programet e tyre për raportimin e dobësive.
Rreziku nga AI e pakontrolluar: Si të mbrohemi sipas ekspertëve?
Raporti i studiuesve sugjeron që kompanitë teknologjike duhet të përmirësojnë kontrollin e të dhënave të trajnimit, të forcojnë mbrojtjen ndaj pyetjeve të rrezikshme dhe të përdorin teknika të “çmësimit makinerik” që u mundësojnë modeleve të harrojnë përmbajtjen e paligjshme. Sipas tyre, “LLM-të e errëta” duhet të trajtohen si rreziqe serioze sigurie, të krahasueshme me armët e pakontrolluara, dhe ofruesit e tyre duhet të mbahen ligjërisht përgjegjës.
Dr. Ihsen Alouani nga Universiteti Queen’s i Belfastit paralajmëron se këto sulme mund të japin udhëzime për prodhimin e armëve, të përhapin dezinformim dhe të mundësojnë mashtrime të sofistikuara. Ai thekson nevojën për testim të vazhdueshëm të sigurisë (red teaming) dhe për mbikëqyrje të pavarur, për të ndalur rreziqet që po evoluojnë.
Prof. Peter Garraghan nga Universiteti Lancaster thotë se chatbot-ët duhet të trajtohen si çdo sistem tjetër kritik, duke kërkuar testim rigoroz dhe dizajnim të përgjegjshëm. Pa e kuptuar thellë strukturën e AI-së, thotë ai, siguria mbetet sipërfaqësore.
Në anën tjetër, OpenAI deklaroi se modeli i saj më i fundit është më rezistent ndaj teknikave jailbreak, dhe se kompania po hulumton mënyra të reja për të përmirësuar sigurinë. Microsoft dha një përgjigje duke dërguar një link për një blog mbi masat e saj mbrojtëse, ndërsa Meta, Google dhe Anthropic nuk komentuan. /Inteligjenca n’3D