VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde

Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.

PCPress.rs Image

Da li stvarno ti govoriš ono što čujem?

Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog meseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft. TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta.

Redmond već koristi veštačku inteligenciju za obradu prirodnog jezika (NLP – natural language processing) kroz svoj Nuance – koji je kupio za 20 milijardi dolara prošle godine, uključujući i prepoznavanje govora i TTS tehnologiju. I agresivno ulaže u i koristi tehnologiju iz startup OpenAI – uključujući njegov ChatGPT alat – verovatno u svoj pretraživač Bing i njegov Office paket aplikacija. Demo VALL-E se može naći na GitHub-u. U radu, istraživači tvrde da, iako je uspon neuronskih mreža i end-to-end modeliranja brzo poboljšao tehnologije oko sinteze govora, i dalje postoje problemi sa sličnošću korišćenih glasova i nedostatkom prirodnih govornih obrazaca u TTS-u. proizvodi. Oni nisu robotski glasovi od pre deceniju ili dve, ali takođe ne izgledaju kao potpuno ljudski.

Mnogo se radi na poboljšanju, ali postoje ozbiljni izazovi. Neki zahtevaju čiste glasovne podatke iz studija za snimanje da bi snimili govor visokog kvaliteta. I treba da se oslone na relativno male količine podataka za obuku – velike biblioteke govora koje se nalaze na internetu nisu dovoljno čiste za rad. Za trenutne TTS generatore – gde softver koristi uzorke koji nisu uključeni u obuku – posao je složen. Može potrajati satima da sistem primeni nečiji glas na otkucani tekst.

Pročitajte i:  Kad se moćan AI spoji sa humanoidnim robotom

„Umesto dizajniranja kompleksne i specifične mreže za ovaj problem, krajnje rešenje je obučiti model sa što većim brojem velikih i raznovrsnih podataka, motivisan uspehom u oblasti sinteze teksta“, napisali su istraživači, napominjući da je količina podataka koji se koriste u modelima jezika teksta poslednjih godina porasla sa 16 GB nekomprimovanog teksta na oko terabajt. VALL-E je „prvi TTS okvir zasnovan na modelu jezika koji koristi velike, raznolike i govorne podatke sa više govornika“. VALL-E je obučen sa Libri-Light – skupom podataka otvorenog koda iz Meta koji uključuje 60.000 sati engleskog govora sa više od 7.000 jedinstvenih govornika.

Poređenja radi, drugi TTS sistemi se obučavaju koristeći desetine sati podataka jednog govornika ili stotine sati sa podacima sa više govornika. VALL-E može da zadrži akustično okruženje glasa. Dakle, ako je isečak glasa koji se koristi kao akustični odzivnik u modelu snimljen na telefonu, sintetizovani izgovoreni tekst bi takođe zvučao kao da dolazi preko telefona. Hvatanje emocija je slično, tvrde istraživači. Ako sekunde snimljenog glasa akustičnog odziva izazivaju ljutnju, onda će sintetizovani govor zasnovan na tom glasu takođe prikazati bes. Rezultat je TTS model koji nadmašuje druge u oblastima kao što su govor prirodnog zvuka i sličnost govornika. Testiranje takođe pokazuje da je „sintetizovani govor nevidljivih govornika prirodan kao i ljudski snimci“, tvrde oni. Istraživači su primetili neka pitanja koja treba rešiti – uključujući da neke reči u sintetizovanom govoru na kraju nedostaju, da su nejasne ili su duplirane. Takođe nema dovoljno pokrivenosti govornika akcentima i mora postojati veća raznolikost u stilovima govora. Procenjuje se da će globalno TTS tržište narasti na desetine milijardi dolara do kraja decenije, pri čemu će razvoj tehnologije pokretati i etablirani igrači i startapi.

Pročitajte i:  PC Press video: 50 miliona evra za ciklus treniranja ChatGPT3 | Prof. dr Stevan Milinković

Microsoft-ovo preduzeće Nuance ima svoj TTS proizvod, a softverski behemot nudi TTS uslugu u Azure-u. Amazon ima Polly, Meta ima Meta-TTS, a Google Cloud takođe nudi uslugu. Brzo unapređenje tehnologije postavlja različita etička i pravna pitanja. Glas osobe se može uhvatiti i sintetizovati za upotrebu u širokom spektru oblasti – od oglasa ili neželjenih poziva do video igara ili chat robota. Takođe se mogu koristiti u dubokim lažnjacima, sa glasom političara ili slavne ličnosti u kombinaciji sa slikom za širenje dezinformacija ili podsticanje besa. Patrick Harr, izvršni direktor kompanije za borbu protiv fišinga SlashNext, rekao je da bi TTS takođe mogao postati još jedan alat za sajber kriminalce, koji bi ga mogli koristiti za vishing kampanje – napade pomoću lažnih telefonskih poziva ili glasovnih poruka za koje se smatra da potiču od kontakta koji žrtva poznaje.

Takođe bi se mogao koristiti u tradicionalnijim phishing napadima. Microsoft istraživači su primetili rizik od sintetizovanog govora koji zadržava identitet govornika. Rekli su da bi bilo moguće napraviti model detekcije kako bi se utvrdilo da li je audio snimak stvaran ili sintetizovan pomoću VALL-E. Har je rekao da bi u roku od nekoliko godina svako mogao da ima „jedinstveni digitalni DNK obrazac pokretan blok-čejnom koji se može primeniti na njihov glas, sadržaj koji pišu, njihov virtuelni avatar, itd. To bi činiocima pretnji mnogo otežalo da iskoriste veštačku inteligenciju za glasovno lažno predstavljanje rukovodilaca kompanije, na primer, jer će tim lažnim predstavljanjima nedostajati ‘otisak prsta’ stvarnog rukovodioca.”

Pročitajte i:  Microsoft objavio kada će „ugasiti“ WordPad

Izvor: Theregister

Facebook komentari:
SBB

Tagovi: , , , , , ,