Blizanci na AI zadatku

20. 05. 2024.24. 05. 2024. PC Press

AI trka se nastavlja – stižu novi konkurenti chatbot-u GPT-4, a trka koju je OpenAI pokrenuo sve se više zahuktava. Kao ozbiljna konkurencija priključili su se Microsoft (Bing), Google (Bard), Meta (Sam), Tesla (Grok), Amazon (Lex)… Najnoviji chatbot, koji pretenduje da bude i najnapredniji, dolazi iz kompanije Google a ime mu je Gemini – ’blizanci’.

Gemini je dobio ime po uzoru na NASA svemirski program koji je prethodio čuvenom programu Apolo, i to je chatbot zasnovan na istoimenom jezičkom modelu. Iza tog imena krije se zapravo porodica multimodalnih velikih jezičkih modela (LLM) koja je razvijena u saradnji DeepMind-a i Google Brain-a, dva ogranka Google-a koja su spojena u Google DeepMind. Prethodno, DeepMind je bila britansko-američka istraživačka laboratorija veštačke inteligencije, osnovana u Velikoj Britaniji 2010, a Google ju je kupio 2014. godine.

Gemini 1.0 i 1.5

Gemini je naslednik Google-ovih jezičkih modela LaMDA (Language Model for Dialogue Applications, jezički model za dijaloge) i PaLM 2 (Pathways Language Model, koji je namenjen matematici, kodiranju, zaključivanju, višejezičnom prevođenju i stvaranju prirodnog jezika). Razvoj Gemini-ja predvodili su izvršni direktor Google-a Sundar Pichai i izvršni direktor DeepMind-a Demis Hassabis. Prvi put je najavljen 10. maja 2023. pri predstavljanju jezičkog modela PaLM 2. Tom prilikom ?? naglašeno da je Gemini jedinstven po tome što nije obučen samo za tekstualne podatke već je dizajniran da bude multimodalan, što znači da može istovremeno da obrađuje više tipova podataka, uključujući tekst, slike, audio, video i kompjuterski kod.

Nakon najave Gemini je lansiran 6. decembra 2023. godine, u okviru virtuelne konferencije za štampu koju su održali Pichai i Hassabis. Gemini je istaknut kao konkurent ChatGPT 4 kompanije OpenAI-a, a objavljen je kao Gemini 1.0. Sastojao se od tri modela: Gemini Ultra (dizajniran za veoma složene zadatke), Gemini Pro (za širok spektar zadataka) i Gemini Nano (za „zadatke na uređaju“, na primer, mobilnom telefonu). Prilikom lansiranja, Gemini Pro i Nano su integrisani u Google-ov četbot Bard i Pixel 8 Pro (Android pametni mobilni telefon koji je dizajnirao Google u svojoj Pixel liniji), dok je Gemini Ultra bio postavljen da pokreće Bard Advanced, naprednu verziju Bard-a, koja je trebalo da postane dostupna programerima početkom 2024. godine.

Gemini nije opremnjen samo za rad sa tekstom, već je multimodalan, što znači da može istovremeno da obrađuje više tipova podataka, uključujući tekst, slike, audio, video i kompjuterski kod

Od 13. decembra 2023. Gemini je dostupan preko Google Cloud-a i istovremeno pokreće Bard. Drugi proizvodi u koje je Google nameravao ili već ugradio Gemini uključuju pretragu, oglase, Chrome, Duet AI na Google Workspace-u (sada Gemini Google Workspace) i AlphaCode 2 (AI sistem za rešavanje programerskih problema). Proglašen je kao Google-ov „najveći i najsposobniji AI model“, dizajniran da oponaša ljudsko ponašanje. Ipak, kompanija je navela da Gemini neće još uvek biti široko dostupan zbog potrebe za „opsežnim bezbednosnim testiranjem“.

Pročitajte i: LinkedIn dodaje AI za lakšu pretragu

U februaru 2024, Google je lansirao Gemini 1.5 (ima do sada jedan objavljen model Gemini 1.5 Pro), u ograničenom kapacitetu, pozicioniran kao moćniji i sposobniji model. Različita tehnička unapređenja uključuju novu arhitekturu i veći kontekstni prozor. Kontekstni prozor je količina tokena (fragmenta reči koji se koristi za pojednostavljenje obrade podataka u svetu računara) koju veliki jezički model (LLM) može obraditi u određenom trenutku. Napomenimo da prosečan čovek može pročitati oko 100.000 tokena u periodu od otprilike pet sati, ali to vreme se odnosi samo na čitanje tokena, dok je za pamćenje i analizu ovih informacija potrebno mnogo više vremena.

Istog meseca, Google je priredio i debi Gemma, familije besplatnih LLM-ova otvorenog koda, koji predstavljaju „laganiju verziju“ Gemini-ja. Dolaze u dve veličine, s neuronskom mrežom s dve i sedam milijardi parametara. Više publikacija je na ovo gledalo kao na očigledan preokret u odnosu na Google-ovu dugogodišnju praksu da svoju veštačku inteligenciju zadrži isključivo u sopstvenom okruženju.

Tehničke karakteristike

Gemini je obučen i pokreće se pomoću Google-ovih procesorskih jedinica TPU (Tensor Processing Units). To je specifično integrisano kolo koje je razvio Google za mašinsko učenje neuronskih mreža, koristeći sopstveni TensorFlow softver, besplatnu biblioteku otvorenog koda za mašinsko učenje i veštačku inteligenciju. TPU se interno u Google-u koristi od 2015, a od 2018. dostupan je za upotrebu i trećim stranama, kao deo infrastrukture u oblaku, dok je manja verzija čipa je dostupna i za kupovinu.

Gemini-jev skup podataka je multimodalan i višejezičan, sastoji se od Web dokumenata, knjiga i koda, uključujući slike, audio i video podatke. Ulazne slike mogu biti različitih rezolucija, dok se video unosi kao niz slika. Audio se uzorkuje na 16 kHz, a zatim konvertuje u niz tokena pomoću Univerzalnog modela govora (Universal Speech Model – USM). Različiti načini unosa se mogu preplitati i ne moraju biti predstavljeni u fiksnom redosledu, omogućavajući multimodalni razgovor. Na primer, korisnik može da otpočne razgovor mešavinom teksta, slike, videa i zvuka, predstavljenih bilo kojim redosledom, a Gemini može da odgovori takođe bilo kojim redosledom.

Prva generacija Gemini-ja (1.0) ima tri modela, sa istom arhitekturom softvera. Oni imaju dužinu konteksta od 32.768 tokena. Dve verzije Gemini Nano, Nano-1 (1,8 milijardi parametara) i Nano-2 (3,25 milijardi parametara), napravljene su od većih Gemini modela, dizajniranih za upotrebu na uređajima kao što su pametni telefoni. Kod druge generacije (Gemini 1.5) ostvaren je napredak, pa se za tu verziju kaže da je s dužinom konteksta od više miliona. Milion tokena odgovara otprilike dužini trajanja jednog sata videa, 11 sati zvuka, 30.000 linija koda ili tekstu od 700.000 reči.

Nova era veštačke inteligencije

Sundar Pichai izjavio je da je s Gemini-jem nastupila nova era veštačke inteligencije. On će, kako tvrde iz Google-a, pažljivije odgovarati na pitanja, jer je napredniji od svojih prethodnika, eliminisaće gotovo u potpunosti tzv. halucinacije, netačne odgovore chatbot-a u komunikaciji. Testiran je za rešavanje problema u 57 oblasti, između ostalih i za matematičke i humanističke nauke. Google tvrdi da je najsposobniji i da će nadmašiti čoveka u rešavanju testova inteligencije. Kako kažu u Google-u, Gemini Ultra je prvi jezički model koji je nadmašio ljude na testu razumevanja jezika u okviru velikog broja zadataka – 57 tema (MMLU). Ultra je postigao rezultat od 90 odsto.

Sve to donelo je i konkretne koristi u poslovanju. Na primer, Google-ove akcije su porasle za 5,3 procenta dan nakon lansiranja Gemini-ja. Preduzete su i brojne aktivnosti u praktičnoj primeni Gemini-ja pa se, između ostalog, u januaru 2024. Google udružio sa Samsung-om da integriše Gemini Nano i Gemini Pro u liniju pametnih telefona Galaxy S24, a postoje indicije da bi se uskoro mogao integrisati i u Apple iPhone.

Pročitajte i: Microsoft predstavlja svoj prvi AI generator slika razvijen u kompaniji

Iz kompanije tvrde da nova verzija Gemini-ja nadmašuje OpenAI platformu GPT-4 u rezultatima i performansama pa će, kako izgleda, Gemini postaviti standard za AI chatbot-ove, s obzirom na to da može da čita i druge izvore osim tekstualnog sadržaja. S tim se konkurencija svakako neće složiti. S vestima o predstojećem lansiranju Gemini-ja, OpenAI je ubrzao svoj rad na integraciji GPT-4 s multimodalnim karakteristikama sličnim onima kod Gemini-ja. Vrlo su aktivni i drugi konkurenti, ali za sada nijedan od njih, osim OpenAI-ja, ne najavljuje multimodalnost. Moćnija verzija njihovog softvera trebalo bi da se pojavi tokom 2024. godine.

Autor: Nadežda Veljković

Facebook komentari: