Tim istraživača iz kompanije Cybernews podvrgao je vodeće alate za veštačku inteligenciju — uključujući ChatGPT i Gemini — nizu namerno izazvanih “adversarial” testova kako bi utvrdili koliko su ti sistemi otporni na preusmeravanje u neželjene ili ilegalne funkcije. Rezultati su, prema izveštaju portala TechRadar, zaista iznenađujući: dok su neki alati pokazali solidnu zaštitu, drugi su relativno lako popuštali pod manipulisanim promptovima.

Kako su testovi izvedeni i šta pokazuju

Istraživanje je sprovedeno kroz kratke sesije — svaki model je imao manje od minut vremena i nekoliko razmena sa testerima koji su pokušavali da ga navuku da prekrši svoje bezbednosne mehanizme. Testerima je cilj bio da AI sistem uradi nešto što je izvan njegove očekivane sigurnosne zone, bilo da je reč o savetima za cyber-napad, izradi malicioznog softvera ili pomaganju u nelegalnim aktivnostima.

Izveštaj otkriva da iako su modeli dizajnirani sa “gardeživima” — kontrolama i filterima — njihov uspeh zavisi u velikoj meri od toga koliko su rigorozni ti filteri, koliko često su ažurirani i koliko ponašanje korisnika utiče na model. Na primer, neki modeli su odbili pravovremeno instrukcije koje su očigledno prekršile pravila, dok su drugi u određenim slučajevima ipak odgovorili na zlonamerne zahteve — što pokazuje da nijedan sistem nije potpuno imun.

Jedan od važnih zaključaka je da nije dovoljno samo imati sofisticiranu tehniku — potrebno je kontinuirano testiranje, unapređivanje i praćenje načina na koji korisnici mogu pokušati da “izigraju” sistem. Takođe, istraživači navode da se edukacija korisnika, pravilna implementacija politika i transparentnost igraju veliku ulogu u tome da li će AI sistem sigurno funkcionisati ili biti zloupotrebljen.

Za organizacije koje razmišljaju da uvedu AI alate u svoje poslovanje, ovo istraživanje služi kao upozorenje: čak najnapredniji sistemi zahtevaju dodatne slojeve kontrole — od politike bezbednosti, preko tehničkih barijera, do ljudskog nadzora — kako bi se smanjila opasnost od zloupotrebe.

Zaključno, pitanje “da li se AI alati mogu naterati na zlonamerni rad” nije više akademsko — istraživači pokazuju da je moguće da delimično uspeju da podlegnu manipulaciji. Odgovor nije da se ti alati ne koriste — već da se koriste sa znanjem, oprezom i stalnom odgovornošću.

Izvor: TechRadar