OpenAI priznaje: novi modeli o3 i o4-mini češće izmišljaju informacije nego prethodni
Novi AI modeli koje je OpenAI nedavno predstavio — o3 i o4-mini — predstavljaju vrhunac tehnologije kada su u pitanju rezonovanje i analitika, ali istovremeno donose i zabrinjavajući problem: veću stopu halucinacija, odnosno generisanja netačnih ili izmišljenih informacija.
Iako donose napredak u kodiranju i matematici, modeli imaju problem sa „halucinacijama“
Tradicionalno, svaki novi model imao je tendenciju da manje halucinira u odnosu na prethodni. Međutim, interni testovi OpenAI-a pokazuju da o3 i o4-mini haluciniraju češće nego stariji modeli poput o1, o1-mini, o3-mini, pa čak i GPT-4o, koji nije deo “rezonujuće” serije.
Šta pokazuju podaci?
Na internom benchmark testu PersonQA, koji meri tačnost znanja o ljudima, model:
- o3 halucinira u 33% slučajeva
- o1 – 16%
- o3-mini – 14.8%
- o4-mini – čak 48%
Još problematičnije je to što OpenAI ne zna tačno zašto se to dešava. U tehničkom izveštaju navode da „treba sprovesti dodatna istraživanja“ kako bi se razumelo zašto skaliranje rezonovanja vodi ka više netačnih tvrdnji.
Jedan od razloga mogao bi biti to što rezonujući modeli daju više odgovora generalno – pa samim tim izbacuju i više tačnih, ali i netačnih informacija. I dok briljiraju u kodiranju i matematici, njihova pouzdanost u domenima znanja ostaje pod znakom pitanja.
Treća strana potvrđuje nalaze
Nezavisna laboratorija Transluce takođe je otkrila da o3 ume da izmišlja korake koje navodno preduzima. U jednom slučaju, tvrdio je da je pokrenuo kod na MacBook računaru van ChatGPT-a — što naravno nije moguće.
Istraživači iz Transluce sumnjaju da način na koji se modeli iz o-serije treniraju putem reinforcement learninga može pojačati ovaj problem. Za razliku od post-trening metoda koje ublažavaju halucinacije, ovi modeli mogu ih dodatno pojačavati.
Posledice za poslovnu primenu
Problem halucinacija može biti ozbiljna prepreka za korišćenje u osetljivim industrijama poput prava, medicine ili finansija, gde su tačne informacije od suštinskog značaja.
Na primer, startup Workera već testira o3 u razvoju softvera, ali su primetili da često generiše nepostojeće linkove ka web stranicama, što smanjuje njegovu praktičnu vrednost.
Moguće rešenje: povezivanje sa internet pretragom
Jedan od načina da se smanji broj halucinacija je korišćenje web pretrage. Na testu SimpleQA, GPT-4o sa pretragom postiže 90% tačnosti, što pokazuje da pristup aktuelnim informacijama može poboljšati pouzdanost — iako to podrazumeva deljenje upita sa eksternim servisima.
„Rad na smanjenju halucinacija je stalan proces, i neprestano radimo na poboljšanju tačnosti i pouzdanosti naših modela,“ izjavio je Niko Felix iz OpenAI-a.
Kako AI industrija sve više prelazi na rezonujuće modele zbog boljih performansi uz manju potrošnju resursa, rešavanje problema halucinacija postaje ključni izazov za budući razvoj veštačke inteligencije.
Izvor: Tech Crunch