Ko pobeđuje protiv AI halucinacija?
Galileo, vodeća kompanija generativne AI za poslovne aplikacije, objavio je svoj najnoviji indeks halucinacija.
Okvir za evaluaciju – koji se fokusira na proširenu generaciju pronalaženja (RAG) – procenio je 22 istaknuta Gen AI LLM od glavnih igrača uključujući OpenAI, Anthropic, Google i Meta. Ovogodišnji indeks se značajno proširio, dodajući 11 novih modela kako bi odrazio brzi rast u LLM-ovima otvorenog i zatvorenog koda tokom proteklih osam meseci.
Vikram Chatterji, izvršni direktor i suosnivač Galilea, rekao je: „U današnjem brzom razvoju AI pejzaža, programeri i preduzeća se suočavaju sa kritičnim izazovom: kako iskoristiti moć generativne AI uz balansiranje između troškova, tačnosti i pouzdanosti. Trenutna merila se često zasnivaju na akademskim slučajevima upotrebe, a ne na aplikacijama iz stvarnog sveta.”
Indeks je koristio Galileov vlasnički metriku evaluacije, pridržavanje konteksta, da bi proverio netačnosti izlaza u različitim dužinama unosa, u rasponu od 1.000 do 100.000 tokena. Ovaj pristup ima za cilj da pomogne preduzećima da donesu informisane odluke o balansiranju između cene i učinka u implementaciji AI.
Anthropic-ov sonet Claude 3.5 se pojavio kao model sa najboljim ukupnim performansama, dosledno je skoro savršen u kratkim, srednjim i dugim kontekstnim scenarijima.
Google Gemini 1.5 Flash rangiran je kao model sa najboljim performansama u pogledu isplativosti, pružajući snažne performanse u svim zadacima.
Alibabin Kven2-72B-Instruct istakao se kao vrhunski model otvorenog koda, posebno se ističe u scenarijima kratkog i srednjeg konteksta.
Indeks je takođe istakao nekoliko trendova u LLM pejzažu:
Modeli otvorenog koda brzo zatvaraju jaz sa svojim konkurentima sa zatvorenim kodom, nudeći poboljšane performanse halucinacija po nižim troškovima.
Trenutni RAG LLM pokazuju značajna poboljšanja u rukovanju proširenim dužinama konteksta bez žrtvovanja kvaliteta ili tačnosti.
Manji modeli ponekad nadmašuju veće, što sugeriše da efikasan dizajn može biti važniji od obima.
Pojava jakih izvođača izvan SAD, kao što su Mistral-ov Mistral-large i Alibaba kven2-72b-instruct, ukazuje na rastuću globalnu konkurenciju u razvoju LLM-a.
Dok modeli zatvorenog koda kao što su Claude 3.5 Sonnet i Gemini 1.5 Flash održavaju svoju prednost zahvaljujući vlasničkim podacima o obuci, indeks otkriva da se pejzaž brzo razvija. Gugl-ov učinak je bio posebno vredan pažnje, sa svojim otvorenim kodom Gemma-7b modelom koji je imao loše performanse, dok je njegov Gemini 1.5 Flash sa zatvorenim kodom konstantno bio pri vrhu.
Kako industrija veštačke inteligencije nastavlja da se bori sa halucinacijama kao glavnom preprekom za proizvode Gen AI spremnih za proizvodnju, Galileov indeks halucinacija pruža vredne uvide za preduzeća koja žele da usvoje pravi model za svoje specifične potrebe i budžetska ograničenja.
Izvor: artificialintelligence-news.com