Računari i Galaksija

Microsoft AI alat VALL-E može da oponaša ljudski govor

Istraživači iz Microsoft-a, predstavili su novi AI alat koji može da simulira nečiji glas, nakon analize samo tri sekunde govora te osobe. U pitanju je „neural codec language model“ nazvan VALL-E, zasnovan na EnCodec tehnologiji za kompresovanje zvuka, koju je prošle godine predstavila Meta. Ta AI tehnologija omogućava kompresiju zvuka u „kvalitetu boljem od CD-a“, u fajlove koji su 10 puta manji od MP3 fajlova, bez uočljivog gubitka u kvalitetu zvuka.

PCPress.rs Image

Glasovi zvuče prirodno

Meta je razvila EnCodec kao način za poboljšanje kvaliteta telefonskih poziva u područjima sa lošom pokrivenošću mobilnog signala, i kao način za smanjenje protoka za muzičke streaming servise. Međutim, Microsoft je pronašao novu namenu za tu tehnologiju, jer ju je upotrebio za sintetizovanje govora u mnogo realističnijem obliku, na osnovu veoma limitirajućeg izvora zvuka.

I dosadašnji sistemi za sintetizovanje govora sposobni su da proizvedu veoma realistične glasove, što se uostalom uveliko koristi kod glasovnih asistenata. Ali, oni zahtevaju veliku količinu visoko-kvalitetnog zvuka za treniranje, koji se obično „prikuplja“ snimanjem u studijskim uslovima, sa profesionalnom opremom. Microsoft-ov pristup omogućio je da VALL-E bude sposoban da simulira praktično bilo čiji glas, bez potrebe da se potroše nedelje snimajući glas te osobe u studiju. Umesto toga, on koristi Meta Libri-Light set podataka, koji se sastoji od 60.000 časova snimljenog razgovora na engleskom jeziku, kao i glasove 7.000 različitih osoba. Ti podaci su prikupljeni i procesirani iz LibriVox audio knjiga, koje su sve u javnom vlasništvu.

Pročitajte i:  Slike koje kreira DALL-E 3 dobijaju vodeni žig

Za sada VALL-E dosta dobro obavlja posao. Primećeno je da povremeno ima problema sa odgovarajućim akcentovanjem, kao i sa mogućnošću da kroz govor izrazi pravu emociju. U većini slučajeva, rezultati su više nego zadovoljavajući – glasovi zvuče prirodno i često je gotovo nemoguće proceniti da li je to izgovorila osoba ili AI. Pri tome, za generisanje glasa dovoljno je samo tri sekunde audio izvora.

VALL-E je trenutno ograničen samo na engleski jezik. Microsoft za sada nije objavio izvorni kod za ovaj alat, jer postoje (opravdane) bojazni i rizici upotrebe ove tehnologije. Na primer, ona bi mogla da se upotrebi za lažnu audio identifikaciju ili lažno predstavljanje preko telefona. Da bi se smanjili ti rizici, neophodno je da se, zajedno sa razvojem ove tehnologije, radi i na razvoju alata koji će moći pouzdano da je detektuje i distancira od pravog ljudskog glasa.

Izvor: Gizmodo

Facebook komentari:
SBB

Tagovi: , , ,