aiOla lansira ultra-brzi ‘multi-head’ model za prepoznavanje govora, nadmašuje OpenAI Whisper
Izraelski AI startup aiOla predstavio je novi open-source model za prepoznavanje govora, Whisper-Medusa, koji je 50% brži od poznatog OpenAI Whispera.
50% povećanje brzine predviđanja govora bez smanjenja tačnosti
Whisper-Medusa koristi inovativnu arhitekturu “multi-head attention” koja omogućava predviđanje više tokena istovremeno, značajno povećavajući brzinu prepoznavanja govora. Kod i težine modela su dostupni na Hugging Face pod MIT licencom.
Prema Gillu Hetzu, VP istraživanja u aiOla, otvaranje modela kao open source podstiče inovacije i saradnju u zajednici, što može dovesti do dodatnih poboljšanja. Ova tehnologija može omogućiti složenim AI sistemima da razumeju i odgovaraju na korisničke upite gotovo u realnom vremenu.
Whisper-Medusa se razlikuje od drugih modela prepoznavanja govora po svojoj brzini i preciznosti. Napredno prepoznavanje govora ostaje ključno za mnoge sektore, uključujući zdravstvenu zaštitu i fintech, i omogućava multimodalne AI sisteme. OpenAI-ov Whisper model je postao standard zbog svoje sposobnosti da obrađuje složen govor s različitim jezicima i akcentima gotovo u realnom vremenu. Whisper beleži više od 5 miliona preuzimanja mesečno i pokreće desetine hiljada aplikacija.
aiOla je razvila Whisper-Medusa modifikovanjem arhitekture Whispera i dodavanjem multi-head attention mehanizma, što omogućava modelu da predviđa deset tokena pri svakom prolazu. Ova promena je rezultirala 50% povećanjem brzine predviđanja govora bez smanjenja tačnosti.
Whisper-Medusa je treniran korišćenjem pristupa slabog nadzora, gde su glavne komponente Whispera zamrznute, a transkripcije generisane modelom korišćene kao oznake za obuku dodatnih modula za predviđanje tokena. aiOla planira da proširi model sa 10 glava na 20 glava, što će dodatno ubrzati prepoznavanje i transkripciju bez gubitka tačnosti.
Hetz je naveo da je poboljšanje brzine i latencije LLM-ova lakše nego kod sistema za automatsko prepoznavanje govora, zbog složenosti obrade kontinuiranih audio signala i rukovanja šumom ili akcentima. Novi pristup multi-head pažnji omogućio je dvostruko bržu brzinu predviđanja, uz zadržavanje visoke tačnosti Whispera.
Whisper-Medusa je testiran na stvarnim slučajevima upotrebe enterprise podataka kako bi se osiguralo da tačno funkcioniše u realnim scenarijima. Hetz veruje da će poboljšanje brzine prepoznavanja i transkripcije omogućiti brže vreme obrade u govornim aplikacijama, omogućujući pružanje odgovora u realnom vremenu. Poboljšanje prepoznavanja govora može značajno povećati produktivnost, smanjiti operativne troškove i omogućiti bržu isporuku sadržaja.
Izvor: Venturebeat