Meta predstavila novi multimodalni AI prevodilac
Moderne metode prevođenja pomoću AI pokazuju se sve više precizne u transformaciji oko 6.500 govornih i pisanih komunikacionih sistema. Problem je u tome što svaki od ovih modela ima tendenciju da uradi samo jedan ili dva zadatka zaista dobro.
Meta razvila jedan model koji može sve
Pojedinačni modeli veštačke inteligencije za prevodjenje ili konverziju između teksta i govora mogu biti veoma dobri u određenim zadacima. Međutim, nijedan od tih modela sam po sebi ne obavlja sve zadatke potpuno tačno. Kako bi postigli visok nivo performansi koje se mogu videti kod popularnih servisa kao što je Google Prevodilac ili razne jezičke usluge Facebook-a, morate kombinovati više različitih modela zajedno.
Jedan model može biti izuzetno dobar u prevodjenju teksta na drugi jezik, dok drugi model može biti bolji u konverziji teksta u govor ili govora u tekst. Kako biste postigli rezultate koji se mogu uporediti s vrhunskim uslugama, koristićete više tih modela istovremeno, svaki za specifičan deo zadatka. Kombinacija tih modela omogućuje bolju i opštu sposobnost komunikacije između različitih jezika i modaliteta.
SeamlessM4T
To je računarski intenzivan proces. Zbog toga je Meta razvila jedan model koji može sve. SeamlessM4T je „temeljni višejezični i multitask model koji neprimetno prevodi i transkribuje govor i tekst“. Model može da prevodi skoro 100 jezika i koristi se za pretvaranja govora u tekst i teksta u tekst. Takođe, podržava konvertovanje govora u govor i teksta u govor za iste jezike i prenosi ih na još 36 jezika, uključujući engleski.
U svojim izveštajima, Metin istraživački tim napominje da SeamlessM4T „značajno unapređuje rezultate za jezike koji imaju ograničene resurse i koji su manje zastupljeni“. Takođe, ovaj model „ima snažne performanse za jezike sa visokim resursima, kao što su engleski, španski i nemački. ” Meta je izgradila SeamlessM4T iz postojeće arhitekture modela UnitY koji je zasnovan na PyTorch programu. UnitY AI model se već koristi za različite modalne prevode kao i za automatsko prepoznavanje govora.
Model koristi tehnologiju nazvanu BERT 2.0
Model koristi tehnologiju nazvanu BERT 2.0 kako bi kodirao zvučne signale ili govor. Na taj način ih bolje bolje razume i obrađuje. Ulazni zvučni podaci se razdvajaju na manje delove, nazvane “komponentni tokeni”, kako bi se olakšala analiza. Za generisanje govornih odgovora, model koristi tehnologiju nazvanu HiFi-GAN. HiFi-GAN je alatka koja omogućuje generisanje visokokvalitetnog govor odnosno stvaranje prirodnog i realističnog zvučnog govora na osnovu unapred kodiranih podataka.
Meta je kreirala ogroman otvoreni skup podataka pod nazivom “SeamlessAlign”. Taj skup podataka je paralelni korpus. To znači da sadrži parove podataka koji se međusobno podudaraju. Takvi podaci se koriste za treniranje modela. Konkretno, ovaj skup podataka se fokusira na podatke koji se tiču govora i prevoda sa govora na tekst, i obrnuto, od teksta do govora. Ova inicijativa omogućava širokoj zajednici da koristi ovaj skup podataka za unapređenje i razvoj tehnologija u oblasti prepoznavanja i generisanja govora.
SeamlessM4T je otvorenog koda
Kompanija je izdvojila „desetine milijardi rečenica“ i „četiri miliona sati“ govora iz javno dostupnih materijala kako bi „automatski uskladila više od 443.000 sati govora sa tekstovima i stvorila 29.000 sati audio snimaka. Audio snimci se koriste za obuku modela i to za prepoznavanje govora“.
Kada je testiran na robusnost, SeamlessM4T je navodno nadmašio svog (trenutnog najsavremenijeg) prethodnika u odnosu na pozadinske šumove i varijacije za 37 odsto, odnosno 48 odsto.
Kao i kod većine svojih prethodnika, bilo da su to Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) ili ambiciozni projekat No Language Left Behind (NLLB) SeamlessM4T je otvorenog koda. „Verujemo da je SeamlessM4T važan napredak u potrazi AI zajednice ka stvaranju univerzalnih sistema za više zadataka“. „Zadržavamo pristup otvorenog koda. Uzbuđeni smo što ćemo javno podeliti naš model kako bismo omogućili istraživačima i programerima da nadograđuju ovu tehnologiju. Ako ste zainteresovani da radite i isprobate SeamlessM4T, na GitHub-u možete preuzeti model, podatke o obuci i dokumentaciju.
Izvor: Engadget