Nvidia Fugatto, novi AI model koji kreira audio iz tekstualnog opisa
Nvidia je predstavila novi eksperimentalni generativni AI model, koji je opisan kao “švajcarski nož za zvuk”. Model je nazvan Foundational Generative Audio Transformer Opus 1, ili Fugatto, koji je u stanju da prima tekstualne komande i da na osnovu njih kreira novi audio zapis, ili da modifikuje postojeći. Dizajnirao ga je time AI istraživača iz celog sveta, a Nvidia je navela da je to omogućilo da model bude bolje prilagođen različitim jezicima.
Ovo nije prvi audio AI model koji se pojavio. Pre njega, Meta je predstavila open-source AI kit koji je sposoban da kreira zvuk iz tekstualnog opisa, a i Google je objavio text-to-music AI sistem nazvan MusicLM, dostupan preko kompanijskog AI Test Kitchen sajta. Ipak, Fugatto bi trebao da bude moćniji od njih i da omogući stvaranje kvalitetnih audio snimaka najrazličitijeg formata.
Ideja koja stoji iza projekta je da se kreira model koji razume i generiše zvuk na isti (sličan) način kao što to rade ljudi. Kompanija je navela nekoliko scenarija u kojima bi Fugatto mogao da se upotrebljava. Recimo, u muzičkoj industriji bi pomogao da se brže generiše prototip pesme, koji kasnije može lako da se menja i da se probaju i primenjuju različiti stilovi, glasovi i instrumenti. Druga moguća primena je generisanje audio materijala za učenje jezika, sa glasovima po izboru korisnika. Takođe, developeri igara moći će brže i lakše da kreiraju pozadinsku muziku u skladu sa dešavanjima na ekranu. Ovaj AI model će pomoći i da se objedine i uklope zvuci koji su kreirani samostalno, kao i da im se promeni namena. Na primer, na taj način mogao bi da se promeni ton nekog javnog govora…
Za sada nema informacija da li će Nvidia omogućiti javni pristup ovom AI modelu.
Izvor: Engadget