Google optužen da koristi početnike za proveravanje činjenica AI odgovora u alatu Gemini

07. 01. 2025.29. 12. 2024. Nemanja Momčilović

Iako veštačka inteligencija (AI) i dalje ima svojih nepouzdanih trenutaka, očekuje se da njene evaluacije budu što preciznije. Međutim, prema izveštaju TechCruncha, Google je prošle nedelje navodno uputio radnike angažovane na ocenjivanju Gemini AI modela da ne preskaču zadatke, bez obzira na to da li imaju stručnost za datu oblast. Ove promene dolaze nakon što je Google početkom meseca predstavio pregled Gemini 2.0 modela.

Promene u smernicama za evaluaciju

GlobalLogic, outsourcing firma čiji zaposleni ocenjuju AI generisane odgovore, ranije je omogućavala ocenjivačima da preskoče zadatke koji su van njihove stručnosti. Na primer, lekar je mogao preskočiti pitanja o zakonima ili programiranju. Prethodne smernice su glasile: „Ako nemate kritičnu stručnost (npr. kodiranje, matematika) za ocenu ovog zadatka, preskočite ga.“

Sada, novi pristup nalaže ocenjivačima da ne preskaču zadatke koji zahtevaju specijalizovano znanje. Umesto toga, trebali bi da ocene delove zadatka koje razumeju, uz napomenu da određena oblast nije njihova specijalnost. Preskakanje je sada dozvoljeno samo u situacijama kada nedostaje veći deo informacija ili kada zadatak sadrži štetan sadržaj koji zahteva posebnu dozvolu za ocenu.

Pročitajte i: Netflix integracija sa Apple TV aplikacije greška

Jedan od ocenjivača je komentarisao ove promene rekavši: „Mislio sam da je poenta preskakanja povećanje tačnosti davanjem zadatka nekome stručnijem.“

Nakon objave ovog izveštaja, Google je za Engadget dao sledeću izjavu: „Ocenjivači obavljaju širok spektar zadataka na mnogim različitim Google proizvodima i platformama. Oni pružaju vredne povratne informacije ne samo o sadržaju odgovora, već i o stilu, formatu i drugim faktorima. Ocene koje daju ne utiču direktno na naše algoritme, ali, kada se sagledaju kao celina, predstavljaju koristan podatak za merenje uspešnosti naših sistema.“

Google je dodao da nove smernice ne bi trebalo da utiču na tačnost Geminija, jer se ocenjivači fokusiraju na delove koje razumeju, poput problema sa formatiranjem. Takođe su istakli nedavno objavljeni FACTS Grounding benchmark, alat koji proverava odgovore LLM modela kako bi se osiguralo da su ne samo činjenično tačni, već i dovoljno detaljni za korisničke zahteve.

Izvor: Engadget

Facebook komentari: