VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde

17. 01. 2023.17. 01. 2023. Tijana Barašević

Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.

Da li stvarno ti govoriš ono što čujem?

Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog meseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft. TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta.

Redmond već koristi veštačku inteligenciju za obradu prirodnog jezika (NLP – natural language processing) kroz svoj Nuance – koji je kupio za 20 milijardi dolara prošle godine, uključujući i prepoznavanje govora i TTS tehnologiju. I agresivno ulaže u i koristi tehnologiju iz startup OpenAI – uključujući njegov ChatGPT alat – verovatno u svoj pretraživač Bing i njegov Office paket aplikacija. Demo VALL-E se može naći na GitHub-u. U radu, istraživači tvrde da, iako je uspon neuronskih mreža i end-to-end modeliranja brzo poboljšao tehnologije oko sinteze govora, i dalje postoje problemi sa sličnošću korišćenih glasova i nedostatkom prirodnih govornih obrazaca u TTS-u. proizvodi. Oni nisu robotski glasovi od pre deceniju ili dve, ali takođe ne izgledaju kao potpuno ljudski.

Mnogo se radi na poboljšanju, ali postoje ozbiljni izazovi. Neki zahtevaju čiste glasovne podatke iz studija za snimanje da bi snimili govor visokog kvaliteta. I treba da se oslone na relativno male količine podataka za obuku – velike biblioteke govora koje se nalaze na internetu nisu dovoljno čiste za rad. Za trenutne TTS generatore – gde softver koristi uzorke koji nisu uključeni u obuku – posao je složen. Može potrajati satima da sistem primeni nečiji glas na otkucani tekst.

Pročitajte i: Microsoft mora da zaustavi postupno ukidanje Control Panel-a

„Umesto dizajniranja kompleksne i specifične mreže za ovaj problem, krajnje rešenje je obučiti model sa što većim brojem velikih i raznovrsnih podataka, motivisan uspehom u oblasti sinteze teksta“, napisali su istraživači, napominjući da je količina podataka koji se koriste u modelima jezika teksta poslednjih godina porasla sa 16 GB nekomprimovanog teksta na oko terabajt. VALL-E je „prvi TTS okvir zasnovan na modelu jezika koji koristi velike, raznolike i govorne podatke sa više govornika“. VALL-E je obučen sa Libri-Light – skupom podataka otvorenog koda iz Meta koji uključuje 60.000 sati engleskog govora sa više od 7.000 jedinstvenih govornika.

Poređenja radi, drugi TTS sistemi se obučavaju koristeći desetine sati podataka jednog govornika ili stotine sati sa podacima sa više govornika. VALL-E može da zadrži akustično okruženje glasa. Dakle, ako je isečak glasa koji se koristi kao akustični odzivnik u modelu snimljen na telefonu, sintetizovani izgovoreni tekst bi takođe zvučao kao da dolazi preko telefona. Hvatanje emocija je slično, tvrde istraživači. Ako sekunde snimljenog glasa akustičnog odziva izazivaju ljutnju, onda će sintetizovani govor zasnovan na tom glasu takođe prikazati bes. Rezultat je TTS model koji nadmašuje druge u oblastima kao što su govor prirodnog zvuka i sličnost govornika. Testiranje takođe pokazuje da je „sintetizovani govor nevidljivih govornika prirodan kao i ljudski snimci“, tvrde oni. Istraživači su primetili neka pitanja koja treba rešiti – uključujući da neke reči u sintetizovanom govoru na kraju nedostaju, da su nejasne ili su duplirane. Takođe nema dovoljno pokrivenosti govornika akcentima i mora postojati veća raznolikost u stilovima govora. Procenjuje se da će globalno TTS tržište narasti na desetine milijardi dolara do kraja decenije, pri čemu će razvoj tehnologije pokretati i etablirani igrači i startapi.

Pročitajte i: AI stetoskop otkriva srčane bolesti za nekoliko sekundi

Microsoft-ovo preduzeće Nuance ima svoj TTS proizvod, a softverski behemot nudi TTS uslugu u Azure-u. Amazon ima Polly, Meta ima Meta-TTS, a Google Cloud takođe nudi uslugu. Brzo unapređenje tehnologije postavlja različita etička i pravna pitanja. Glas osobe se može uhvatiti i sintetizovati za upotrebu u širokom spektru oblasti – od oglasa ili neželjenih poziva do video igara ili chat robota. Takođe se mogu koristiti u dubokim lažnjacima, sa glasom političara ili slavne ličnosti u kombinaciji sa slikom za širenje dezinformacija ili podsticanje besa. Patrick Harr, izvršni direktor kompanije za borbu protiv fišinga SlashNext, rekao je da bi TTS takođe mogao postati još jedan alat za sajber kriminalce, koji bi ga mogli koristiti za vishing kampanje – napade pomoću lažnih telefonskih poziva ili glasovnih poruka za koje se smatra da potiču od kontakta koji žrtva poznaje.

Takođe bi se mogao koristiti u tradicionalnijim phishing napadima. Microsoft istraživači su primetili rizik od sintetizovanog govora koji zadržava identitet govornika. Rekli su da bi bilo moguće napraviti model detekcije kako bi se utvrdilo da li je audio snimak stvaran ili sintetizovan pomoću VALL-E. Har je rekao da bi u roku od nekoliko godina svako mogao da ima „jedinstveni digitalni DNK obrazac pokretan blok-čejnom koji se može primeniti na njihov glas, sadržaj koji pišu, njihov virtuelni avatar, itd. To bi činiocima pretnji mnogo otežalo da iskoriste veštačku inteligenciju za glasovno lažno predstavljanje rukovodilaca kompanije, na primer, jer će tim lažnim predstavljanjima nedostajati ‘otisak prsta’ stvarnog rukovodioca.”

Pročitajte i: Gemini AI rešio problem u kodiranju koji je porazio 129 ljudskih timova

Izvor: Theregister

Facebook komentari: