Eksperti utvrdili da ChatGPT nije dobar u sažimanju naučnih radova
Veliki jezički modeli rado žrtvuju tačnost zarad jednostavnosti prilikom pisanja sažetaka, što je posebno nezgodno kada su u pitanju naučni radovi, piše portal Ars Technica.

Sažimanje složenih naučnih otkrića za čitalačku publiku koja nije stručna jedno je od najvažnijih svakodnevnih zaduženja novinara koji pišu o nauci. Generisanje sažetaka složenih tekstova često se pominje i kao jedna od najčešćih primena velikih jezičkih modela.
Tim iz Američkog udruženja za unapređenje nauke (AAAS) sproveo je neformalno jednogodišnje istraživanje kako bi utvrdio da li ChatGPT može da proizvede vrstu „news brief“ sažetaka velikih radova koje njihov „SciPak“ tim rutinski piše za časopis Science i servise poput EurekAlert. Ovi SciPak članci osmišljeni su da prate specifičan, pojednostavljen format koji prenosi ključne informacije – premisu istraživanja, metode i kontekst – drugim novinarima koji bi mogli da pišu o tome.
Zaključili su da ChatGPT može „donekle da oponaša strukturu njihovih sažetaka, ali je „imao tendenciju da žrtvuje tačnost zarad jednostavnosti“, što znači da je „zahtevao rigoroznu proveru činjenica od strane stručnih novinara“.
„Ove tehnologije mogu da imaju potencijal kao pomoćni alati za naučne pisce, ali još uvek nisu spremne za ‘prime time’, barem ne za SciPak tim“, rekla je AAAS novinarka Abigejl Ajsenštat.
Od decembra 2023. do decembra 2024. AAAS istraživači su birali do dva rada nedeljno koje je ChatGPT trebalo da sažme pomoću tri različita upita sa različitim nivoima specifičnosti. Tim se fokusirao na radove sa zahtevnim elementima – tehničkim žargonom, kontroverznim zaključcima, prelomnim otkrićima, istraživanjima na ljudima ili netradicionalnim formatima. Testiranja su rađena uz „Plus“ verziju najnovijih dostupnih GPT modela tokom perioda istraživanja, uglavnom GPT-4 i GPT-4o.
Ukupno je sažeto 64 rada, a ti sažeci su ocenjivani kvantitativno i kvalitativno od strane istih SciPak pisaca koji su radili sažetke za AAAS. Istraživači napominju da ovaj dizajn „nije mogao da ukloni ljudske pristrasnosti“, što bi, kako sami priznaju, moglo biti značajno kada novinari procenjuju alat koji preti da preuzme deo njihovih osnovnih zadataka.

Kvantitativni rezultati anketa među tim novinarima bili su prilično jednoznačni. Na pitanje da li bi ChatGPT sažeci „mogli uverljivo da se uklope u ostatak vaše linije sažetaka“, prosečna ocena bila je svega 2,26 na skali od 1 („nimalo“) do 5 („apsolutno“). Na pitanje da li su sažeci „privlačni“, prosečna ocena LLM sažetaka bila je 2,14. U oba pitanja, samo je jedan sažetak dobio ocenu „5“, naspram 30 ocena „1“.
Pisci su takođe davali kvalitativne komentare na pojedinačne sažetke. U njima su se žalili da ChatGPT često meša korelaciju i kauzalnost, ne pruža kontekst (na primer da su meki aktuatori obično veoma spori) i ima tendenciju da preuveličava rezultate korišćenjem reči poput „revolucionarno“ i „inovatorsko“ (iako je ovo prestalo kada su upiti to izričito tražili).
Sve u svemu, istraživači su zaključili da je ChatGPT uglavnom dobar u „transkribovanju“ onoga što piše u radu, naročito ako rad nema mnogo nijansi. Ali je slab kada treba da „prevede“ nalaze, ulazeći u metodologiju, ograničenja ili širi značaj. Slabosti su posebno bile izražene kod radova sa više različitih rezultata, ili kada je ChatGPT trebalo da objedini dva povezana rada u jedan sažetak.


