PC Press specijal - Data centri 2025

Koliko informacije veliki jezički modeli zaista pamte? 

Veliki jezički modeli (LLM – Large Language Models), kao što su ChatGPT, Claude (Anthropic) i Gemini (Google), poznati su po tome da su trenirani na ogromnim skupovima podataka.

Zahvaljujući istraživačima iz kompanija Meta, Google, Nvidia i sa Univerziteta Kornel — sada znamo

PCPress.rs Image

U pitanju su trilioni reči sa veb-sajtova, knjiga, kodova, a sve češće i iz drugih medija kao što su slike, zvuk i video. Ali ključno pitanje koje se postavlja jeste: da li ti modeli zaista razumeju jezik — ili samo pamte ono što su „videli”?

Kako modeli funkcionišu?

Villager Quix robotske kosilice

LLM-ovi analiziraju velike količine teksta i uče statističke obrasce jezika — kako su reči povezane, koje teme se javljaju zajedno, i kako ljudi formulišu rečenice. Recimo, model prepoznaje da se reč „jabuka” često javlja uz „voće”, „drvo” ili „računar”. Tako uči šta jabuka može da bude: crvena, zelena, jestiva, itd. Ova znanja se „ugrađuju” u parametre veštačke neuronske mreže — kojih može biti milijarde. Ali postavlja se važno pitanje: da li modeli samo uče opšte obrasce jezika — ili i bukvalno pamte delove iz trening podataka?

Zašto je to važno?

Zato što je razlika između generalizacije (razumevanja obrazaca) i memorije (bukvalnog pamćenja) ključna za:

  • Razumevanje kako modeli funkcionišu
  • Otkrivanje potencijalnih grešaka
  • Pravne aspekte — ako modeli pamte delove zaštićenog sadržaja (npr. autorska dela), to može predstavljati kršenje autorskih prava
Pročitajte i:  Microsoft je predstavio AI kreiranu demo igru "inspirisanu" Quake 2-om, ali ona je praktično neigriva

Ako model pamti tačne rečenice iz trening skupa, postoji rizik da ih reprodukuje, što bi moglo biti pravno sporno. Ali ako model samo uči obrasce, a ne konkretne primere, to se može braniti kao „dozvoljena upotreba” (fair use).

Nova studija donosi odgovor: modeli pamte tačno 3.6 bita po parametru

Istraživači iz Meta, Google DeepMind, Nvidia i Univerziteta Kornel su otkrili da GPT-modeli imaju fiksni kapacitet memorisanja — oko 3.6 bita po parametru. Šta to znači?

  • Bit je najmanja jedinica digitalne informacije (0 ili 1)
  • 3.6 bita omogućava da se razlikuje oko 12 različitih vrednosti (2^3.6 ≈ 12)
  • To je kao da model može da zapamti izbor jednog od 12 meseci — dovoljno za sitne informacije
  • To nije dovoljno ni da se zapamti jedno slovo (englesko slovo zahteva ~4.7 bita)

Drugim rečima: modeli nemaju kapacitet da pamte velike delove teksta. Njihova memorija je raspršena i ograničena.

Više podataka — manje memorije po primeru

Jedno od najzanimljivijih otkrića jeste da modeli ne pamte više kada ih trenirate sa više podataka. Naprotiv, njihova ograničena memorija se raspodeljuje na veći broj primera — pa se manje pamti po svakom uzorku. To znači da treniranje modela na većem broju tekstova umanjuje rizik da model zapamti konkretne delove sadržaja.

Pročitajte i:  xAI objavljuje Grok upite iza kulisa 

Kako su ovo testirali?

Da bi precizno izmerili kapacitet memorisanja, istraživači su primenili pametan trik: trenirali su modele na potpuno nasumičnim nizovima bitova, koji nemaju nikakvu strukturu — za razliku od prirodnog jezika. U takvom okruženju, model ne može da uči obrasce, jer ih nema — svaki niz je jedinstven. Ako model uspe da ih rekonstruiše, jasno je da ih je morao zapamtiti, a ne zaključiti. Ovo omogućava da se jasno razlikuje memorisanje od učenja obrazaca. Istraživači su zatim trenirali stotine modela — od 500 hiljada do 1.5 milijardi parametara — i u svim slučajevima dobili konzistentnu vrednost: oko 3.6 bita po parametru.

Šta se dešava sa stvarnim podacima?

Kada se modeli treniraju na pravom tekstu, dolazi do kombinacije generalizacije i memorisanja.

  • Manji skupovi podataka → više memorisanja
  • Veći skupovi podataka → model uči obrasce i generalizuje

Ovo je uočeno i kroz fenomen zvan “dvostruki pad” (double descent) — gde model prvo prividno pogorša performanse, a zatim ih poboljša kada počne da generalizuje.

Da li preciznost modela utiče na memoriju?

Da. Kada su modeli trenirani u punoj preciznosti (32-bitni brojevi), memorisanje se blago povećava — sa 3.51 na 3.83 bita po parametru. Ali to je manji skok nego što bi se očekivalo, što znači da veća preciznost ne vodi proporcionalno većem memorisanju.

Pročitajte i:  WhatsApp radi na lakšem načinu odjavljivanja

Jedinstveni podaci su podložniji pamćenju

Istraživanje pokazuje da vrlo jedinstveni i retki podaci imaju veću šansu da budu zapamćeni — jer se teško uklapaju u obrasce generalizacije. To znači da, iako je prosečan rizik mali, autorski ili lični podaci koji su jedinstveni ipak mogu biti ranjivi.

Koliko podataka modeli mogu da zapamte?

  • Model sa 500.000 parametara može da zapamti oko 225 kilobajta sirove informacije.
  • Model sa 1.5 milijardi parametara može da zapamti do 675 megabajta podataka.

Ovo nije mnogo u kontekstu slika ili videa, ali je značajno kada se radi o tekstu — posebno ako su u pitanju rečenice ili izrazi koji se ponavljaju.

Zaključak: Više podataka = manji rizik

Ova studija prvi put donosi preciznu, naučnu definiciju memorisanja u LLM-ovima. Glavne poruke su:

  • Veliki jezički modeli imaju ograničen kapacitet memorisanja
  • Memorisanje je razblaženo kada se treniraju na više podataka
  • Jedinstveni sadržaji su rizičniji, ali prosečan rizik je nizak
  • Više podataka zapravo doprinosi bezbednijem ponašanju modela

Za istraživače, programere i donosioce zakona, ovo istraživanje je važan korak ka transparentnijem, odgovornijem i etičnijem razvoju veštačke inteligencije.

Izvor: Venturebeat

Facebook komentari:
Tagovi: ,

Leave a Reply

Your email address will not be published. Required fields are marked *