Meta AI jezički model prepoznaje preko 4.000 govornih jezika
AI model može da pretvara tekst u govor na preko 1.100 jezika.
Projekat – Massively Multilingual Speech
Meta je kreirala AI jezički model koji nije klon ChatGPT-a. Projekat, Massively Multilingual Speech (MMS) može da prepozna preko 4.000 govornih jezika i konvertuje tekst u govor za preko 1.100 jezika. Kao i većina drugih javno objavljenih projekata veštačke inteligencije, Meta koristi MMS otvorenog koda. Na taj način pomaže u očuvanju jezičke raznolikosti i podsticanju istraživača da izgrade nove sisteme na njenim temeljima. „Danas javno delimo naše modele i kod kako bi drugi u istraživačkoj zajednici mogli da nadograđuju naš rad“, navodi kompanija. „Nadamo se da ćemo kroz ovaj rad dati mali doprinos očuvanju neverovatne jezičke raznolikosti sveta.
Modeli za prepoznavanje govora i pretvaranje teksta u govor obično zahtevaju obuku o hiljadama sati zvuka sa pratećim oznakama za transkripciju. Međutim, jezici koji se ne koriste često u industrijalizovanim zemljama su u opasnosti da nestanu u narednim decenijama. „Ti podaci jednostavno ne postoje“, navodi Meta.
Meta je koristila nekonvencionalan pristup prikupljanju audio podataka. „Okrenuli smo se religijskim tekstovima, kao što je Biblija. Takvi tekstovi su prevedeni na mnogo različitih jezika i ti prevodi su naširoko proučavani za istraživanje prevođenja jezika zasnovanog na tekstu“, navodi kompanija. „Ovi prevodi imaju javno dostupne audio snimke ljudi koji čitaju ove tekstove na različitim jezicima. Uključujući neoznačene snimke Biblije i slične tekstove, Metini istraživači su povećali raspoložive jezike modela na preko 4 000.
„Iako je sadržaj audio snimaka religiozan, naša analiza pokazuje da to ne utiče na model kako bi se kreiralo više religioznih jezika“, navodi Meta. „Verujemo da je to zato što koristimo pristup vremenske klasifikacije (CTC). CTC je daleko više ograničen u poređenju sa velikim jezičkim modelima (LLM) ili modelima od sekvence do sekvence za prepoznavanje govora. Uprkos tome što većinu religioznih snimaka čitaju muški govornici, ni to nije unelo mušku pristrasnost. Model se podjednako dobro ponaša u ženskim i muškim glasovima.
Meta upozorava da njeni novi modeli nisu savršeni
Nakon što je obučila model usklađivanja kako bi podaci bili upotrebljiviji, Meta je koristila wav2vec 2.0. To je model koji može da trenira na neoznačenim podacima. Kombinovanje nekonvencionalnih izvora podataka i govornog modela samonadgledanja dovelo je do impresivnih rezultata. „Naši rezultati pokazuju da modeli Massively Multilingual Speech rade dobro u poređenju sa postojećim modelima i pokrivaju 10 puta više jezika.“ Meta je uporedila MMS sa OpenAI-ovim Whisperom i to je premašilo očekivanja. „Otkrili smo da modeli obučeni na podacima o masovnom višejezičnom govoru postižu upola manju stopu greške u rečima, ali masovno višejezični govor pokriva 11 puta više jezika.
Meta upozorava da njeni novi modeli nisu savršeni. „Postoji rizik da model konverzije govora u tekst može pogrešno prepisati izabrane reči ili fraze“. „U zavisnosti od rezultata, ovo bi moglo rezultirati uvredljivim i netačnim jezikom. Verujemo da je saradnja širom AI zajednice ključna za odgovoran razvoj AI tehnologija.
Sada kada je Meta objavila MMS za istraživanje otvorenog koda, nadamo se da možemo preokrenuti trend u kojem tehnologija dovodi do smanjenja svetskih jezika na 100 ili manje onih koji su najčešće podržani od strane velikih tehnoloških kompanija. Vidimo svet u kojem tehnologija, pretvaranje teksta u govor (TTS) čak i VR/AR tehnologija omogućuju svima da govore i uče na svojim materinjim jezicima. “Zamislili smo svet u kojem tehnologija ima suprotan učinak, podstičući ljude da očuvaju svoje jezike jer mogu pristupiti informacijama i koristiti tehnologiju govoreći na svom maternjem jeziku.”
Izvor: Engadget