Microsoft predstavio AI model koji razume sadržaj slika

07. 03. 2023.10. 03. 2023. Branislav Bubanja

Istraživači iz Microsoft-a, predstavili su Kosmos-1, multimodalni model koji može da analizira sadržaj fotografija, rešava puzzle, obavlja vizuelno prepoznavanje teksta, da razume instrukcije date prirodnim jezikom, pa čak i da uspešno rešava vizuelne IQ tekstove.

AI za slike

Oni veruju da ovakav multimodalni AI, koji integriše različite ulazne modove, kao što su tekst, audio, fotografije i video snimci, predstavlja ključni korak ka razvijanju prave veštačke inteligencije (AGI – Artifical General Intelligence). AGI se smatra hipotetičkom tehnologijom koja će biti u mogućnosti da zameni čoveka u bilo kom intelektualnom zadatku. Uostalom, to je i krajnji cilj kompanije OpenAI (koja stoji iza ChatGPT-a), ključnog Microsoft-ovog partnera u AI sferi.

Ipak, treba naglasiti da je Kosmos-1 (za sada) isključivo Microsoft-ov projekat. Istraživači su ga nazvali „multimodal large language model“ (MLLM), jer njegovi koreni leže u procesiranje prirodnog jezika. Čisto za poređenje, ChatGPT je tekstualno zasnovan LLM, pa možemo da kažemo da Kosmos-1 predstavlja njegovu nadgradnju. On je u stanju da prihvata slike kao ulazni parametar, koje se zatim prevode u seriju tokena (suštinski u tekst), koji će LLM model razumeti.

Pročitajte i: Indija postaje centar svetske AI revolucije

Microsoft je trenirao Kosmos-1 sa podacima preuzetih sa web-a, nakon čega su kroz seriju testova proveravali njegove sposobnosti. Ti testovi su se odnosili na razumevanje prirodnog jezika, generisanje jezika, optičko prepoznavanje karaktera, prepoznavanje i opis slika… Mnoge od tih testova Kosmos-1 je prošao sa odličnim rezultatima. Drugim rečima, Kosmos-1 je sposoban da analizira slike, nakon čega može da odgovara na pitanja u vezi njih, pročita tekst sa njih, napiše kratka objašnjenja slike. Kada su vizuelni IQ testovi u pitanju, trenutno uspeva da odgovori tačno na četvrtinu pitanja (22 do 26 odsto).

Iako je Kosmos-1 još uvek u ranoj fazi razvoja, pokazuje da multimodalni modeli imaju svetlu budućnost. Buduća optimizacija će verovatno doneti još bolje i značajnije rezultate, čineći da AI bude sposoban da prihvati bilo koji ulazni format i da obavi odgovarajuću akciju. Inače, istraživači planiraju da se u narednom periodu fokusiraju na integrisanje sposobnosti govora u okviru ovog modela.

Takođe, Microsoft planira da Kosmos-1 kroz GitHub učini dostupnim developerima, kako bi se ta tehnologija našla u što više proizvoda.

Pročitajte i: Project Indigo i podrška za iPhone 17

Izvor: ArsTechnica

Facebook komentari: