Meta AI model koji može da obrađuje slike
Samo dva meseca nakon što je objavio svoj poslednji veliki AI model, Meta se vratio sa velikim ažuriranjem: svojim prvim modelom otvorenog koda koji je sposoban da obrađuje i slike i tekst.
Novi model, Llama 3.2, mogao bi da omogući programerima da kreiraju naprednije AI aplikacije, kao što su aplikacije proširene stvarnosti koje pružaju razumevanje videa u realnom vremenu, vizuelni pretraživači koji sortiraju slike na osnovu sadržaja ili analizu dokumenata koja sumira dugačke delove teksta za ti.
Meta kaže da će programerima biti lako da pokrenu novi model. Programeri će morati malo da urade osim da dodaju ovu „novu multimodalnost i da budu u mogućnosti da pokažu slike lame i da one komuniciraju“, rekao je Ahmad Al-Dahle, potpredsednik generativne veštačke inteligencije u kompaniji Meta, za The Verge.
Drugi programeri veštačke inteligencije, uključujući OpenAI i Google, već su lansirali multimodalne modele prošle godine, tako da Meta ovde igra nadoknadu. Dodavanje podrške za vid takođe će igrati ključnu ulogu jer Meta nastavlja da gradi AI sposobnosti na hardveru kao što je Ray-Ban Meta naočare.
Llama 3.2 uključuje dva modela vizije (sa 11 milijardi parametara i 90 milijardi parametara) i dva laka modela samo za tekst (sa milijardu parametara i 3 milijarde parametara). Manji modeli su dizajnirani da rade na Qualcomm-u, MediaTek-u i drugom Arm hardveru, a Meta se jasno nada da će ih moći koristiti na mobilnim uređajima.
Ipak, još uvek ima mesta za (malo) stariju Llamu 3.1: taj model, objavljen u julu, uključivao je verziju sa 405 milijardi parametara, koja će teoretski biti sposobnija kada je u pitanju generisanje teksta.
Izvor: TheVerge