Microsoft Phi-4: Mali model u velikom pakovanju
Proteklih godina uglavnom čitamo o Large Language modelima za primenu veštačke inteligencije. Postoje i mali modeli, SLM, koji su fokusirani na konkretne zadatke. Microsoft se pridružio njihovom razvoju serijom Phi, koja je stigla do četvrte generacije.
Kad se govori o veštačkoj inteligenciji, AI chatbot-ovima i jezičkim modelima za simulaciju ljudske komunikacije, najpre se pomisli na velike jezičke modele (LLM – Large Language Model), na kojima su zasnovani GPT-3, GPT-4… Postoji i čitav spektar malih jezičkih modela (SLM – Small Language Model). Kategorizacija small odnosi se na manju veličinu tih modela u pogledu broja parametara na kojima su obučeni. Veliki modeli obučavaju se na bilionima i trilionima, a mali na stotinama miliona ili nekoliko desetina milijardi parametara. Bez obzira na to, chatbot-ovi zasnovani na SLM modelima su u nekim primenama znatno efikasniji i precizniji.
Veliki modeli obučavaju se na bilionima i trilionima, a mali na stotinama miliona ili nekoliko desetina milijardi parametara. Bez obzira na to, chatbot-ovi zasnovani na SLM modelima su u nekim primenama znatno efikasniji i precizniji
Za razliku od LLM-a, namenjenog zadacima širokog dijapazona, SLM modeli su fokusirani na tačno određene, konkretne zadatke, pa su idealni za primenu u malim i srednjim preduzećima. Zahvaljujući manjim dimenzijama, ovi modeli troše znatno manje energije i memorijskog prostora, eliminišu potrebu za složenom digitalnom infrastrukturom, pa su idealni za implementaciju u okruženjima sa ograničenim resursima. Manja potrošnja ih istovremeno čini i ekološki prihvatljivijim.
U poslednjih nekoliko godina brojne kompanije u svetu bave se razvojem SLM modela veštačke inteligencije, a najpoznatiji predstavnici ove vrste su GPT-4o Mini (SLM verzija većeg LLM modela GPT-4o kompanije OpenAI), Gemini 2.0 Flash koji su kreirali Gemini Developer API i Google AI Studio, te Claude 3.5 Haiku kompanije Anthropic. GPT-4o Mini dizajniran je za isplativu korisničku podršku i operacije koje zahtevaju velike kontekstne prozore, Claude 3.5 Haiku se ističe u rezimiranju i izdvajanju uvida iz složenih pravnih ili nestrukturiranih dokumenata, dok Gemini 1.5 Flash nudi bolje performanse u multimodalnim
aplikacijama, kao što je analiza video, audio i obimnih tekstualnih skupova podataka.
Microsoft-ovi Phi modeli
Microsoft se pridružio razvoju SLM modela veštačke inteligencije serijom Phi. Prvi Microsoft-ov SLM model Phi-1 predstavljen je avgusta 2023. godine. Imao je 1,3 milijarde parametara i u trenutku pojavljivanja pokazao najbolje rezultate kodiranja na Python-u (popularni programski jezik za projektno orijentisano programiranje) u odnosu na konkurenciju. Dalji razvoj razumevanja jezika i razmišljanja doneo je novi model serije Phi-1.5, koji je imao iste parametre, ali je pokazao bolje performanse, u rangu s modelima s pet puta više parametara. Usledio je Phi-2 (decembar 2023) s 2,7 milijardi parametara i performansama na nivou najboljih modela s 13 milijardi parametara.
Potpuno nov kvalitet ponudio je model Phi-3, koji se pojavio u aprilu 2024. Najmanja verzija ovog modela je Phi-3 Mini sa 3,8 milijardi parametara. Microsoft je najavio da je model dvostruko efikasniji od konkurentnih modela iste veličine. Nije zahtevao moćne NVIDIA čipove, već je mogao da radi sa „običnim“ kompjuterima ili čak da stane u mobilni telefon. Veći model Phi-3 Small imao je 7 milijardi parametara, a Phi-3 Medium – 14 milijardi. Ova verzija ima još dva manja modela: Phi-3 Vision (4,2 milijarde parametara) i Phi-3 Silica (3,3 milijarde parametara).
Najnoviji model Phi-4
U decembru 2024. godine Microsoft je predstavio najnoviji model ove serije. To je prvi model realizovan nakon što je otišao Sebastien Bubeck, jedan od potpredsednika Microsoft-a čija je uloga ključna u razvoju Phi serije; Bubeck je u aprilu 2024. prešao u OpenAI. U koncepciji novog modela Phi-4 ostvaren je značajan napredak u trendu ka manjim (SLM), ali veoma efikasnim modelima veštačke inteligencije. Ovaj model, sa svojih 14 milijardi parametara, dizajniran je za složene zadatke zaključivanja, uključujući matematiku, a ističe se i u oblastima kao što su odgovaranje na tzv. STEM pitanja (STEM je
skraćenica koja upućuje na nekoliko akademskih disciplina: nauka – science, tehnologija – technology, inženjering – engineering i matematika – mathematics).
SLM modeli troše znatno manje energije i memorijskog prostora, eliminišu potrebu za složenom digitalnom infrastrukturom, pa su idealni za implementaciju u okruženjima sa ograničenim resursima
Phi-4 pokazuje izvanredne rezultate u poređenju s nekim od najvećih AI modela današnjice. Njegova sposobnost da precizno generiše odgovore i rešava složene zadatke dolazi zasnovana je na pametnijem pristupu u treniranju modela. Microsoft-ovi inženjeri su koristili tehnike optimizacije koje su omogućile modelu da uči brže i da eliminiše nepotrebne slojeve kompleksnosti, a da pritom ne gubi na tačnosti. Na primer, u testovima prirodnog jezika i rešavanja logičkih problema Phi-4 parira znatno većim modelima, a istovremeno zahteva daleko manje računarske snage. Ovo ga čini posebno zanimljivim za aplikacije koje zahtevaju brzo donošenje odluka u realnom vremenu.
Prema tehničkom izveštaju koji prati izdanje, Phi-4 je postigao ocenu 80,4 na MATH benchmark-u (standardizovan način za procenu performansi veštačke inteligencije na zadacima koji se kreću od osnovne aritmetike do naprednog računanja) i nadmašio je druge sisteme u rešavanju problema i procenama rezonovanja.
Phi-4 je dostupan na nedavno pokrenutoj razvojnoj platformi Azure AI Foundry samo u istraživačke svrhe prema Microsoft-ovom ugovoru o licenci za istraživanje (Microsoft Research License Agreement), zatim na Hugging Face platformi, na kojoj zajednica za mašinsko učenje sarađuje na modelima, skupovima podataka i aplikacijama, kao i na platformi Ollama na kojoj programeri mogu da kreiraju chatbot-ove.
Svestrana primena
Prednost Phi-4 modela leži u njegovoj svestranosti. Microsoft već vidi potencijal ovog modela u širokom spektru oblasti, od malih preduzeća koja žele da automatizuju svoje procese, do obrazovnih platformi koje žele pristupačna AI rešenja. Phi-4 je idealan za implementaciju u Internet stvari (IoT), pametne telefone i druga okruženja sa ograničenim resursima.
Jedan od zanimljivijih aspekata Phi-4 je njegova potencijalna upotreba u obrazovanju. Zahvaljujući svojoj veličini i efikasnosti, model može biti ugrađen u aplikacije za online učenje, pružajući studentima podršku za rešavanje zadataka i interaktivno sticanje znanja u realnom vremenu. Microsoft planira da kroz buduće iteracije ovog modela dodatno poboljša njegovu prilagodljivost specifičnim zadacima u industriji, čineći ga konkurentnim ne samo kao tehnički naprednog već i kao isplativog AI asistenta.
Jedan od velikih izazova današnje veštačke inteligencije jeste njena ekološka održivost. Veliki modeli troše ogromne količine električne energije tokom treniranja i rada, što ima značajan uticaj na životnu sredinu. Sa Phi-4, Microsoft je uspeo da napravi energetski efikasnije rešenje, čime se smanjuju troškovi i negativan uticaj na ekologiju, a sistemi AI postaju dostupniji i odgovorniji.
Microsoft je naglasio svoju posvećenost etičkom razvoju veštačke inteligencije, integrišući napredne mere bezbednosti u Phi-4. Model ima koristi od funkcije razvojne platforme Azure AI Content Safety kao što su brzi štitovi, otkrivanje zaštićenog materijala i praćenje aplikacija u realnom vremenu. Ove funkcije, objasnio je Microsoft, pomažu korisnicima da odgovore na rizike kao što su suprotstavljeni zahtevi i pretnje bezbednosti podataka tokom primene AI.
Phi-4, sa svojim naprednim mogućnostima zaključivanja i efikasnim dizajnom, predstavlja značajan dodatak trendu manjih AI modela. On dovodi u pitanje industrijske norme davanja prioriteta većim modelima, nudeći efikasniju i isplativiju alternativu koja može da pruži visoke performanse i mogućnosti rasuđivanja. To ne znači da će LLM tek tako zastariti. Umesto toga, kupcima se nudi veći izbor pri odlučivanju o najboljem modelu za svaki specifičan slučaj primene, što ukazuje na pomak u industriji ka raznovrsnijem spektru AI modela.
Autor: Nadežda Veljković