Wikipedija daje svoje podatke kako bi se odbranila od botova
Kaggle je dobio skup podataka od Wikipedije kako bi se optimizovala aplikacija za mašinsko učenje.

Wikipedija pokušava da odvrati programere veštačke inteligencije od cilja da uklone platformu skupa podataka koji je posebno optimizovan za obuku AI modela. Fondacija Wikimedija je objavila u sredu da se udružila sa Kaggleom, platformom zajednice za nauku o podacima u vlasništvu Google koja sadrži podatke o mašinskom učenju, kako bi objavila beta skup podataka strukturisanog sadržajem Wikipedije na engleskom i francuskom jeziku.
Wikimedia kaže da je skup podataka koji hostuje Kaggle dizajniran imajući na umu radne tokove mašinskog učenja, što olakšava programerima veštačke inteligencije da pistupe mašinski čitljivim podacima članaka za modeliranje, fino podešavanje, usklađivanje i analizu. Sadržaj uključuje sažetke istraživanja, kratke opise, veze sa slikama, podatke i odeljke članaka, bez referenci i audio datoteka.
Struktura JSON Wikipedije koja je dostupna korisnicima Kaggle privlačnija je alternativa od raščlanjivanja sirovog teksta što je problem koji trenutno opterećuje servere Wikipedije. Automatizovani AI botovi nemilosrdno troše propusni opseg plaforme. Wikipedija ima ugovore o podeli sadržaja sa Googlom ali partnerstvo sa Kaggle treba da uči podatke dostupnijim za manje kompanije i nezavisne naučnike za podatke.
Izvor: theverge.com