NVIDIA AI sakupljao podatke sa YouTube-a i Netflixa
U najnovijem primeru zabrinjavajućeg trenda u industriji, čini se da je NVIDIA prikupila veliku količinu sadržaja zaštićenog autorskim pravima za obuku svojih AI modela. U ponedeljak je Samantha Kole iz 404 Media izvestila da je kompanija vredna 2,4 biliona dolara tražila od radnika da preuzmu videozapise sa YouTube-a, Netflix-a i drugih baza podataka kako bi razvili komercijalne AI projekte. Proizvođač grafičkih kartica je među tehnološkim kompanijama koje su očigledno usvojile etos “kreni brzo i ruši stvari” dok jure da uspostave dominaciju u ovoj užurbanoj, prečesto sramotnoj AI zlatnoj groznici.
Upotreba autorskih sadržaja u obuci AI modela
Obuka je navodno bila namenjena razvoju modela za proizvode kao što su generator 3D svetova Omniverse, sistemi za samovozeće automobile i projekti “digitalnih ljudi.”
NVIDIA je branila svoju praksu u mejlu Engadget-u. Portparol kompanije je rekao da je njihovo istraživanje “u potpunosti u skladu sa slovom i duhom zakona o autorskim pravima,” dok tvrdi da zakoni o intelektualnoj svojini štite specifične izraze “ali ne i činjenice, ideje, podatke ili informacije.” Kompanija je uporedila ovu praksu sa pravom osobe da “uči činjenice, ideje, podatke ili informacije iz drugog izvora i koristi ih za kreiranje svog izraza.” Ljudi, računari… u čemu je razlika?
YouTube se očigledno ne slaže. Portparol Džek Melon ukazao je na Bloomberg priču iz aprila, citirajući izvršnog direktora Nila Mohana koji je rekao da bi korišćenje YouTube-a za obuku AI modela bilo “jasno kršenje” njihovih uslova. “Naš prethodni komentar i dalje važi,” napisao je menadžer komunikacije za YouTube politike Engadget-u.
Mohanova izjava iz aprila bila je odgovor na izveštaje da je OpenAI obučavao svoj Sora tekst-u-video generator na YouTube videozapisima bez dozvole. Prošlog meseca, izveštaj je pokazao da je startup Runway AI sledio isti postupak.
Zaposlenima u NVIDIA-i koji su izrazili etičke i pravne zabrinutosti u vezi s praksom, navodno su menadžeri rekli da je to već odobrilo najviše rukovodstvo kompanije. “Ovo je odluka izvršnog rukovodstva,” odgovorio je Ming-Yu Liu, potpredsednik istraživanja u NVIDIA-i. “Imamo sveobuhvatno odobrenje za sve podatke.” Drugi u kompaniji navodno su opisali ovu praksu prikupljanja podataka kao “otvoreno pravno pitanje” koje će rešavati kasnije.
Sve to podseća na stari moto Facebook-a (Meta) “kreni brzo i ruši stvari,” koji je uspeo da naruši mnoge stvari, uključujući privatnost miliona ljudi.
Pored videozapisa sa YouTube-a i Netflix-a, NVIDIA je navodno instrukcije dala radnicima da koriste baze podataka filmskih trejlera MovieNet, interne biblioteke video snimaka igara i GitHub video datasetove WebVid (koji je sada uklonjen nakon obustave i prestanka) i InternVid-10M. Potonji je skup podataka koji sadrži 10 miliona YouTube video ID-ova.
Neki od podataka koje je NVIDIA navodno koristila za obuku bili su označeni kao prikladni samo za akademsku (ili neku drugu nekomercijalnu) upotrebu. HD-VG-130M, biblioteka od 130 miliona YouTube videozapisa, uključuje licencu za korišćenje koja navodi da je namenjena samo za akademska istraživanja. NVIDIA je navodno odbacila zabrinutosti u vezi s akademskim uslovima, insistirajući da su njihovi podaci prikladni za njene komercijalne AI proizvode.
Kako bi izbegli detekciju od strane YouTube-a, NVIDIA je navodno preuzimala sadržaj koristeći virtuelne mašine (VMs) sa rotirajućim IP adresama kako bi izbegla zabrane. Kao odgovor na sugestiju radnika da koriste alat treće strane za rotaciju IP adresa, drugi zaposleni u NVIDIA-i je navodno napisao: “Koristimo Amazon Web Services i ponovno pokretanje instance virtuelne mašine daje novu javnu IP adresu. Tako da, to za sada nije problem.”
Izvor: Engadget