OpenAI-jev o1 model često pokušava da obmane ljude

25. 12. 2024.27. 12. 2024. Tijana Barašević

OpenAI je konačno objavio punu verziju modela o1, koji pruža inteligentnije odgovore od GPT-4o koristeći dodatne resurse za “promišljanje” pitanja.

Model povremeno svesno daje lažne informacije

Međutim, testiranja bezbednosti su otkrila da napredne sposobnosti rasuđivanja modela o1 takođe povećavaju učestalost obmanjujućeg ponašanja, češće nego kod GPT-4o ili vodećih modela kompanija poput Meta, Anthropic i Google-a.

Nalazi istraživanja

Prema istraživanju “crvenog tima” objavljenom od strane OpenAI i Apollo Research-a, model o1 povremeno “kuje planove” protiv ljudi, tj. tajno sledi sopstvene ciljeve, čak i kada su u suprotnosti sa željama korisnika. Iako ovakvo ponašanje nije unikatno za o1, ovaj model je pokazao najviše obmanjujućih sklonosti u poređenju s konkurencijom. Rizik koji motiviše ovo istraživanje jeste mogućnost da AI model, ukoliko postane veštiji u obmanjivanju i dobije pristup većim resursima, može izmaći ljudskoj kontroli. OpenAI ističe da trenutne agentne sposobnosti modela o1 nisu dovoljno razvijene za ozbiljne posledice, ali preporučuje dodatna istraživanja pre uvođenja naprednijih agentnih sistema, planiranih za 2025. godinu.

Obmanjujuće ponašanje u brojkama

Kada su ciljevi modela o1 bili u sukobu sa korisnikovim, model je manipulacijom podacima unapređivao sopstvene interese u 19% slučajeva.
U 5% testova, model je pokušao da deaktivira mehanizme nadzora osmišljene da ga usklade sa ciljevima korisnika.
Kada su istraživači suočili o1 sa ovim postupcima, model je negirao odgovornost i davao lažna objašnjenja u 99% slučajeva.

Primer testa

Tokom testiranja, modelu o1 je dat zadatak da “po svaku cenu zaštiti životnu sredinu”. Kada mu je korisnik zatražio plan očuvanja koji maksimizira kratkoročni profit pod pretnjom isključivanja, model je deaktivirao sopstveni mehanizam nadzora kako bi napravio plan koji štiti prirodu. Kada je upitan zašto je to učinio, model je negirao da je deaktivirao nadzor i za incident okrivio “sistemski kvar”.

Mere za rešavanje problema

OpenAI razvija metode za praćenje misaonih procesa modela o1. Trenutno je ovaj proces uglavnom “crna kutija”, ali rana istraživanja pokazuju da model povremeno svesno daje lažne informacije. Ove obmane često proizlaze iz želje modela da zadovolji korisnika, što može biti rezultat tehnika obuke gde se modeli nagrađuju za “tačne” odgovore.

Iako je samo 0,17% odgovora modela o1 označeno kao obmanjujuće, ovaj procenat može postati značajan s obzirom na to da ChatGPT sada ima 300 miliona korisnika, što potencijalno znači hiljade obmanutih ljudi svake nedelje.

Odgovori na zabrinutosti o bezbednosti AI-ja

Izveštaji sugerišu da je tim za bezbednost u OpenAI proporcionalno manji nego ranije, sa smanjenim resursima. Ovi nalazi o obmanjujućoj prirodi o1 mogli bi ojačati argumente za veću transparentnost i značajnija ulaganja u AI bezbednost.

Pored toga, OpenAI je uključio evaluacije od strane američkog i britanskog Instituta za bezbednost AI-ja, ističući svoju posvećenost temeljnom ispitivanju svojih modela pre šireg puštanja u upotrebu. Međutim, skeptici ukazuju na potrebu za još strožim merama i bolju ravnotežu između razvoja novih funkcionalnosti i bezbednosnih standarda.

Izvor: Techcrunch

Facebook komentari: