Amazon obučava LLM sa 980 miliona parametara
Istraživači u Amazonu su obučili novi model velikog jezika (LLM) za pretvaranje teksta u govor za koji tvrde da pokazuje „nastajuće“ sposobnosti.
Model sa 980 miliona parametara, nazvan BASE TTS, je najveći model za pretvaranje teksta u govor koji je do sada stvoren. Istraživači su obučavali modele različitih veličina na do 100.000 sati govornih podataka u javnom domenu kako bi videli da li će primetiti iste skokove performansi koji se dešavaju u modelima obrade prirodnog jezika kada pređu određenu skalu.
Otkrili su da je njihov model srednje veličine od 400 miliona parametara – obučen na 10.000 sati zvuka – pokazao značajno poboljšanje u svestranosti i robusnosti na lukavim testnim rečenicama.
Probne rečenice su sadržale složene leksičke, sintaksičke i paralingvističke karakteristike poput složenih imenica, emocija, stranih reči i interpunkcije koje su obično izazov za sisteme za pretvaranje teksta u govor. Iako BASE TTS nije njima savršeno upravljao, napravio je znatno manje grešaka u naglasku, intonaciji i izgovoru od postojećih modela.
„Ove rečenice su dizajnirane da sadrže izazovne zadatke – nijedan od kojih BASE TTS nije eksplicitno obučen za izvođenje“, objasnili su istraživači.
Najveća verzija modela sa 980 miliona parametara – obučena na 100.000 sati zvuka – nije pokazala dalje sposobnosti od verzije od 400 miliona parametara.
Dok je eksperimentalni proces, stvaranje BASE TTS-a pokazuje da ovi modeli mogu dostići nove pragove svestranosti kako se skaliraju – ohrabrujući znak za konverzacionu AI. Istraživači planiraju dalji rad na identifikaciji optimalne veličine modela za nove sposobnosti.
Model je takođe dizajniran da bude lagan i prenosiv, pakuje odvojeno emocionalne i prozodijske podatke. Ovo bi moglo obezbediti da se govorni zvuk prirodnog zvučanja prenosi preko veza niskog propusnog opsega.
Izvor: artificialintelligence-news.com