Meta ImageBind AI moći će da oponaša ljudsku percepciju

12. 05. 2023.12. 05. 2023. Nenad Gajic

ImageBind AI model može dovesti do napretka u pristupačnosti i stvaranju okruženja mešovite stvarnosti.

VR, mešovita stvarnost i metaverzum

Meta razvija AI alat pod nazivom ImageBind koji predviđa veze između podataka slične onome kako ljudi percipiraju ili zamišljaju okruženje. Dok generatori slika kao što su Midjourney, Stable Diffusion i DALL-E 2 uparuju reči sa slikama, omogućavajući generisanje vizuelne scene samo na osnovu tekstualnog opisa, ImageBind stvara više opcija i veće mogućnosti.

ImageBind može da poveže tekst, slike,video zapise, audio materijal, 3D materijale, podatke o temperaturi i podatke o kretanju. Specifično je da to sve radi bez potrebe da se prvo obučava za svaku mogućnost. Ovo je rana faza. Na kraju alat bi mogao da generiše složena okruženja od unosa jednostavnih elemenata kao što su tekstualni upit, slika ili audio snimak ili neka kombinacija sva tri elementa.

ImageBind predstavlja približavanje mašinskog učenja ljudskom učenju. Na primer, ako stojite u stimulativnom okruženju kao što je prometna gradska ulica, vaš mozak (uglavnom nesvesno) apsorbuje prizore, zvukove i druga senzorna iskustva kako bi prikupio informacije o automobilima i pešacima u prolazu, visokim zgradama, vremenu i još mnogo toga.

Pročitajte i: Zašto biste trebali da proverite da li Gmail koristi vaše mejlove za treniranje AI-ja — i kako da se isključite

Ljudi i druge životinje su evoluirali da obrađuju ove podatke i imaju genetsku prednost: preživljavanje i prenošenje DNK. Što ste svesniji svog okruženja, to više možete da izbegnete opasnost. Zatim, možete da se prilagodite svom okruženju radi boljeg preživljavanja i napretka. Kako se računari približavaju oponašanju multisenzornih veza životinja, oni mogu da koriste te veze da generišu potpuno ostvarene scene zasnovane samo na ograničenim delovima podataka.

Korišćenjem Midjourney možete podstaći „psa da nosi Gandalfovu odeću dok balansira na lopti za plažu“. Zatim, možete dobiti relativno realističnu fotografiju ove bizarne scene. Međutim, multimodalni alat za veštačku inteligenciju kao što je ImageBind može na kraju da napravi video snimak psa sa odgovarajućim zvukovima, uključujući detaljan prikaz dnevne sobe u predgrađu, temperaturu u prostoriji i precizne lokacije psa i bilo koga drugog u sceni.

Potpuno realne 3D scene

„Ovo stvara karakteristične mogućnosti za kreiranje animacija od statičnih slika kombinovanjem sa audio uputstvima“, navode istraživači Mete. „Kreator bi mogao da upari sliku sa budilnikom i petlom koji kukuriče. Zatim bi mogao da koristi zvučni odziv za kukurikanje da segmentira petla ili zvuk alarma da segmentira sat i animira oboje u video sekvencu.“

Pročitajte i: Zašto humanoidni roboti imaju toliko značaja u planovima Tesle

Mnogo toga bi još moglo da se uradi sa ovom novom igračkom. Sve ukazuje na jednu od ključnih ambicija Mete: VR, mešovita stvarnost i metaverzum. Buduće slušalice moći će da konstruišu potpuno realne 3D scene. Programeri virtuelnih igara bi možda mogli da je iskoriste za veći deo posla iz svog procesa dizajna.

Kreatori sadržaja mogli bi da naprave impresivne video zapise. Ti zapisi bi mogli da imaju realistične zvučne pejzaže i pokrete samo na osnovu teksta, slike ili audio zapisa. Takođe, lako je zamisliti alatku kao što je ImageBind koja otvara nova vrata u prostoru pristupačnosti. Alat bi mogao da generiše multimedijalne opise u realnom vremenu kako bi pomogao osobama sa oštećenjem vida ili sluha da bolje sagledaju svoje neposredno okruženje.

Tehnologija će se proširiti izvan svojih granica

„U tipičnim sistemima veštačke inteligencije postoji specifično ugrađivanje (vektori brojeva koji mogu predstavljati podatke i njihove odnose u mašinskom učenju) za svaki odgovarajući modalitet“. „ImageBind pokazuje da je moguće stvoriti zajednički prostor za ugradnju u više modaliteta bez potrebe za obukom o podacima sa svakom različitom kombinacijom modaliteta. Ovo je važno jer istraživačima nije izvodljivo da kreiraju skupove podataka sa uzorcima koji sadrže audio podatke i termalne podatke sa prometne gradske ulice, ili podatke o dubini i tekstualni opis primorske litice.

Pročitajte i: Apple OLED tranzicija

Meta smatra da će se tehnologija na kraju proširiti izvan svojih trenutnih šest „čula“. „Iako smo istražili šest modaliteta u našem trenutnom istraživanju, verujemo da će uvođenje novih modaliteta koji povezuju više čula poput dodira, govora, mirisa i signala fMRI mozga omogućiti bogatije modele veštačke inteligencije usmerene na čoveka.” Zainteresovani programeri za istraživanje novog AI modela mogu početi istraživanje tako što će pristupiti open-source kodu Mete.

Izvor: Engadget

Facebook komentari: