Modeli Open AI pamtili sadržaj zaštićen autorskim pravima
Nova studija ukazuje da je OpenAi obučavao neke od svojih AI modela na sadržaju zaštićenom autorskim pravima.

OpenAi je upleten u tužbe od strane autora, programera i drugih nosioca prava koji optužuju kompaniju da koristi njihova dela – knjige, baze kodova i tako dalje – za razvoj svojih modela bez dozvole. OpenAI se brani poštenom upotrebom ali tužioci u ovim slučajevima tvrde da u američkom zakonu o autorskim pravima na postoji ograničenje za podatke o obuci.
Studija koja je sprovedena od strane Univerziteta u Vašingtonu, Univerziteta u Kopenhagenu i Stanfordu, predlaže novi metod za identifikaciju podataka o obuci od strane modela kao što je OpenAI.
Modeli su mašine za predviđanje. Obučeni su na mnogo podataka i uče obrasce zato su u stanju da generišu eseje, fotografije i slično. Većina rezultata nisu doslovne kopije podataka ali zbog načina na koji modeli uče neki to neizbežno jesu. Utvrđeno je da modeli slika vraćaju snimke ekrana iz filmova na kojima su bili obučeni dok je uočeno da jezički modeli plagiraju novinske članke.
Koautori su ispitali nekoliko OpenAI modela u potrazi za znakovima pamćenja. Prema rezultatima GPT-4 je pokazao znake da je zapamtio delove popularnih beletrističkih knjiga, uključujući knjige u skupu podataka koji sadrži uzorke e-knjiga zaštićenih autorskim pravima pod nazivom BookMIA. Rezultati su pokazali da je model zapamtio delove članaka NewJorkTimesa.
OpenAI se zalagao za blaža ograničenja u razvoju modela koji koriste podatke zaštićene autorskim pravima. Iako kompanija ima određene ugovore o licenciranju sadržaja i nudi mehanizme za odustajanje koji omogućavaju vlasnicima autorskih prava da označe sadržaj koji bi više voleli da kompanije ne koriste u svrhu obuke.
Izvor: techcrunch.com