Google razvio AI glas koji zvuči skoro kao ljudski

Google je razvio Tacotron 2, novi sistem za pretvaranje teksta u govor koji zvuči skoro kao ljudski i može da se pohvali lakoćom izgovaranja reči koje je inače teže izgovoriti. Tacotron 2 je druga generacija ove tehnologije i sastoji se od dve duboke neuronske mreže. Prva pretvara tekst u poseban spektogram, a druga, WaveNet (koju je razvila Alphabet-ova AI laboratorija DeepMind), čita ovaj grafikon i pretvara ga u pravi glas.

Sistem je trenutno obučen samo za rad na engleskom jeziku sa jednim ženskim glasom. Što znači da, ako Google želi da doda novi muški ili ženski glas, trebalo bi ponovno da istrenira čitav sistem. Ono po čemu je još poseban i po tome da nije samo u stanju da čita tekst, već i primećuje određene nijanse u samom tekstu (male razlike u naglasku ili značenju), naglašava određene reči koje su posebno istaknute u tekstu, sa lakoćom izgovara reči koje su inače teške za izgovor, pa čak i ispravlja određene sitnije greške u pisanju.

Ono što je najviše impresivno u sistemu Tacotron 2 jeste to što nije samo neka vrsta tehnologije koja će ostati u laboratoriji, jer Google već koristi WaveNet mrežu da generiše realniji glas u Google Asistentu. Kada se Tacotron 2 usavrši, pojaviće se na sistemima kao što je Asistent, a do tada u rad Tacotron 2 sistema možete se i sami uveriti zahvaljujući audio isečcima koje ćete pronaći na GitHub-u.

Pročitajte i:  Robot-komičar: Jednako dosadan kao čovek

Izvor: PhoneArena

Facebook komentari: