Fugatto AI model može da stvara audio zapis iz tekstualnih promptova

16. 12. 2024.10. 12. 2024. Nina Momcilovic

NVIDIA je lansirala novi eksperimentalni generativni AI model pod nazivom Foundational Generative Audio Transformer Opus 1, ili skraćeno Fugatto. Ovaj model, opisan kao „švajcarski nožić za zvuk,“ može kreirati zvukove i modifikovati postojeće audio datoteke, uključujući muziku, glasove i zvučne efekte, koristeći tekstualne komande. Razvijen od strane tima istraživača iz celog sveta, Fugatto se ističe svojim multijezičnim i multi-akcentnim sposobnostima.

Cilj: Ljudski pristup zvuku

„Želeli smo da kreiramo model koji razume i generiše zvuk na način na koji to rade ljudi,“ rekao je Rafael Vale, menadžer primenjenih audio istraživanja u NVIDIA-i. Model je namenjen širokom spektru primena, od muzičke produkcije do razvoja video igara.

NVIDIA je navela nekoliko praktičnih scenarija za korišćenje Fugatto-a:

Muzička produkcija: Producentski timovi mogu koristiti model za brzo generisanje prototipa pesama, koje mogu lako prilagoditi različitim stilovima, glasovima i instrumentima.
Edukacija jezika: Generisanje materijala za učenje jezika s glasovima po izboru korisnika.
Video igre: Kreiranje varijacija prethodno snimljenih zvukova kako bi odgovarali promenama u igri koje zavise od odluka igrača.

Pročitajte i: NVIDIA GeForce 50 serija GPU kartica konačno dostupna za kupovinu

Model može ići korak dalje od osnovnih zadataka za koje je treniran. Na primer, može kombinovati uputstva poput generisanja govora sa specifičnim akcentom i emocijom, ili simulirati zvuke prirode, poput ptičjeg pevanja tokom oluje.

Fugatto može generisati zvuke koji se razvijaju kroz vreme, poput zvuka kiše koja prelazi preko pejzaža, dodajući slojeve realističnosti i kreativnosti. Istraživači su otkrili da model može izvesti zadatke koji nisu deo njegovog osnovnog treninga, uz minimalno prilagođavanje.

Konkurencija i budućnost

Iako NVIDIA nije objavila da li će Fugatto biti dostupan javnosti, slične tehnologije već postoje. Meta je ranije predstavila open-source alat za kreiranje zvuka iz tekstualnih opisa, dok Google nudi MusicLM, AI za tekstualno-generativnu muziku, dostupan kroz njihov AI Test Kitchen.

Fugatto predstavlja korak napred u razvoju generativnog zvuka, otvarajući mogućnosti za inovacije u muzici, igrama i obrazovanju, dok NVIDIA dodat

Izvor: Engadget

Facebook komentari: