NVIDIA AI tim je navodno bez dozvole skidao video zapise sa YouTube-a i Netflix-a
U poslednjem primeru zabrinjavajućeg industrijskog obrasca, izgleda da je NVIDIA skinula gomile zaštićenog sadržaja za treniranje AI modela.
YouTube je ponovio da je scraping “jasno kršenje” njihovih uslova korišćenja
5. avgusta, Samantha Cole iz 404 Media je izvestila da je kompanija vredna 2,4 triliona dolara tražila od radnika da preuzimaju video zapise sa YouTube-a, Netflix-a i drugih dataset-ova kako bi razvijali komercijalne AI projekte. Proizvođač grafičkih kartica je među tehnološkim kompanijama koje očigledno usvajaju ethos “brzo deluj i lomi stvari”, dok se utrkuju da uspostave dominaciju u ovoj užurbanoj, prečesto sramotnoj AI zlatnoj groznici.
Treniranje je navodno bilo usmereno na razvoj modela za proizvode poput njihovog Omniverse 3D generatora sveta, sistema za autonomna vozila i “digitalnih ljudi”.
NVIDIA je branila svoju praksu u email-u za Engadget. Portparol kompanije je rekao da je njihovo istraživanje “u potpunosti u skladu sa slovom i duhom zakona o autorskim pravima” dok tvrdi da zakoni o intelektualnoj svojini štite specifične izraze “ali ne i činjenice, ideje, podatke ili informacije.” Kompanija je ovu praksu izjednačila sa pravom osobe da “uči činjenice, ideje, podatke ili informacije iz drugog izvora i koristi ih da kreira svoj vlastiti izraz.” Čovek, kompjuter… u čemu je razlika?
YouTube se ne slaže. Portparol Jack Malon nas je uputio na priču iz Bloomberg-a iz aprila, gde je citiran CEO Neal Mohan koji kaže da bi korišćenje YouTube-a za treniranje AI modela bilo “jasno kršenje” njihovih uslova. “Naš prethodni komentar i dalje važi,” napisao je menadžer za komunikacije YouTube politika za Engadget.
Taj citat Mohan-a iz aprila bio je odgovor na izveštaje da je OpenAI trenirao svoj Sora text-to-video generator na YouTube video zapisima bez dozvole. Prošlog meseca, izveštaj je pokazao da je startup Runway AI učinio isto.
NVIDIA radnici koji su izrazili etičke i pravne zabrinutosti u vezi sa praksom navodno su od svojih menadžera dobili odgovor da je to već odobreno od najviših nivoa kompanije. “Ovo je izvršna odluka,” odgovorio je Ming-Yu Liu, potpredsednik istraživanja u NVIDIA-i. “Imamo krovno odobrenje za sve podatke.” Drugi u kompaniji su navodno opisali scraping kao “otvoreno pravno pitanje” kojim će se baviti kasnije.
Sve ovo zvuči slično starom motu Facebook-a (Meta-e) “brzo deluj i lomi stvari,” koji je uspešno polomio prilično mnogo stvari, uključujući privatnost miliona ljudi.
Pored YouTube i Netflix video zapisa, NVIDIA je navodno instruisala radnike da treniraju na bazi podataka filmskih trejlera MovieNet, internim bibliotekama snimaka video igara i dataset-ovima sa GitHub-a WebVid i InternVid-10M. Poslednji je dataset koji sadrži 10 miliona YouTube video ID-eva.
Neki od podataka na kojima je NVIDIA navodno trenirala bili su označeni kao dozvoljeni samo za akademsku (ili drugu nekomercijalnu) upotrebu. HD-VG-130M, biblioteka od 130 miliona YouTube video zapisa, uključuje licencu za korišćenje koja specificira da je namenjena samo za akademsko istraživanje. NVIDIA je navodno ignorisala zabrinutosti u vezi sa akademskim ograničenjima, insistirajući da su njihovi dataset-ovi u redu za komercijalne AI proizvode.
Kako bi izbegli detekciju od strane YouTube-a, NVIDIA je navodno preuzimala sadržaj koristeći virtuelne mašine (VM) sa rotirajućim IP adresama kako bi izbegli zabrane. Kao odgovor na sugestiju radnika da koriste alat treće strane za rotiranje IP adresa, drugi radnik NVIDIA-e je navodno napisao, “Mi smo na [Amazon Web Services](#) i ponovno pokretanje instance [virtuelne mašine](#) daje novu javnu IP[.](#) Dakle, to nije problem do sada.”
Pun izveštaj 404 Media o praksama NVIDIA-e vredi pročitati.
Izvor: Engadget