Microsoft najavio novi AI alat za generisanje glasa
Novi model veštačke inteligencije može da prenese emociju i akustično okruženje.
Microsoft VALL-E
Microsoft je pokazao svoje najnovije istraživanje u oblasti veštačke inteligencije za konverziju teksta u govor sa modelom koji se zove VALL-E. Novi model može da simulira određeni glas iz samo tri sekunde audio uzorka. Govor može da odgovara ne samo boji glasa, već i emocionalnom tonu govornika, pa čak da bude usklađen i sa akustikom prostorije. U budućnosti novi alat mogao bi da se koristi za prilagođene ili vrhunske aplikacije za konverziju teksta u govor. Međutim, isto kao i deepfake, nosi rizik od zloupotrebe.
VALL-E je ono što Microsoft naziva „model jezika neuronskog kodeka“. Model je konstruisan od Meta-inog kompresijskog neuronskog enkodeka koji pokreće AI, koji generiše zvuk iz unosa teksta i kratkih uzoraka.
Istraživači su trenirali softver VALL-E pomoću 60.000 sati govora na engleskom jeziku na Meti-noj LibriLight audio biblioteci. Glas koji se oponaša mora biti sličan glasovima koje je softver koristio tokom obuke. Ako to nije slučaj, model koristi podatke iz obuke da bi zaključio kako bi ciljni govornik zvučao kada bi izgovorio željeni unos teksta.
(Zlo)upotreba tehnologije
Stručnjaci pokazuju koliko dobro model funkcioniše na VALL-E Github stranici. Za svaku frazu koju žele da AI „izgovori“, oni postavljaju snimak od tri sekunde prema kojem AI pravi lažni snimak.
Rezultati su pomešani. Neki rezultati zvuče kao da ih izgovara mašina dok su drugi iznenađujuće realistični. Činjenica da zadržava emocionalni ton originalnih uzoraka je ono što ga razlikuje od drugih. Takođe, snimak verno odgovara akustičnom okruženju. To znači recimo da ako je govornik snimio svoj glas u sali, VALL-E generisani zvuk takođe će delovati kao da dolazi sa istog mesta.
Da bi poboljšao model, Microsoft planira da poveća svoje podatke koje će koristiti za obuku. Kompanije želi da „poboljša performanse modela kroz prozodiju, stil govora i perspektivu sličnosti govornika“. Takođe, Microsoft istražuje načine za smanjenje reči koje su nejasne ili propuštene.
Microsoft je odlučio da ne učini kod otvorenim, verovatno zbog rizika da bi veštačka inteligencija mogla da se zloupotrebi. Kompanija navodi da će slediti svoje principe kada je u pitanju dalji razvoj veštačke inteligenicje.
„Pošto VALL-E može da sintetiše govor koji održava identitet govornika, može da nosi potencijalne rizike u zloupotrebi modela, kao što je lažna identifikacija glasa ili lažno predstavljanje“, navodi je kompanija.
Izvor: Engadget