AI kompanije još uvek pretražuju veb sajtove uprkos protokolima za blokiranje
Sve više AI kompanija zaobilazi robots.txt uputstva.
Robots.txt uputstva
Perplexity, kompanija koja svoj proizvod opisuje kao “besplatan AI pretraživač”, bila je pod paljbom proteklih dana. Forbes ju je optužio za krađu njegove priče i ponovno objavljivanje na više platformi. Wired je izvestio da Perplexity ignoriše Robots Exclusion Protocol, ili robots.txt i pretražuje njegov veb sajt i druge publikacije Condé Nast-a.
Tehnološki veb sajt The Shortcut takođe je optužio kompaniju za pretraživanje svojih članaka. Reuters je zatim izvestio da Perplexity nije jedina AI kompanija koja zaobilazi robots.txt datoteke. I druge kompanije pretražuju veb sajtove kako bi dobile sadržaj koji se zatim koristi za obuku njihovih tehnologija.
“AI agenti iz više izvora biraju da zaobiđu robots.txt protokol kako bi preuzeli sadržaj sa sajtova.” Datoteka robots.txt sadrži uputstva za veb pretraživače o tome koje stranice mogu a koje ne mogu da pristupe. Veb programeri koriste ovaj protokol od 1994. godine, ali je poštovanje potpuno dobrovoljno.
Business Insider navodi da je saznao da OpenAI i Anthropic tvorci ChatGPT-a i Claude chatbot-ova, takođe zaobilaze robots.txt signale. Obe kompanije su prethodno tvrdile da poštuju “ne pretražuj” uputstva koja sajtovi postavljaju u svojim robots.txt datotekama.
Wired je otkrio da mašina na Amazon serveru “sigurno u vlasništvu Perplexity” zaobilazi uputstva njegovog veb sajta robots.txt. Da bi potvrdio da li Perplexity pretražuje njegov sadržaj, Wired je svom alatu dao naslove svojih članaka ili kratke upite opisujući svoje priče. Alat je navodno došao do rezultata koji su blisko parafrazirali njegove članke “sa minimalnom atribucijom.” Ponekad je čak generisao netačne sažetke za svoje price. Wired navodi da je chatbot lažno tvrdio da je izveštavao o specifičnom kalifornijskom policajcu koji je počinio zločin u jednom slučaju.
Obični korisnici neće dobiti iste rezultate
Izvršni direktor Perplexity-a Aravind Srinivas naveo je da njegova kompanija “ne ignoriše Robot Exclusion Protocol i ne laže o tome.” To, međutim, ne znači da ne koristi pretraživače koji ignorišu protokol. Srinivas je objasnio da kompanija koristi pretraživače trećih strana pored svojih. Pretraživač koji je Wired identifikovao bio jedan od njih. Kada je Fast Company pitao da li je Perplexity rekao provajderu pretraživača da prestane da pretražuje Wired-ov veb sajt, samo je odgovorio da je “to komplikovano.”
Srinivas je branio praksu svoje kompanije. On je naveo da Robots Exclusion Protocol “nije pravni okvir”. On je sugerisao da izdavači i kompanije poput njegove možda moraju da uspostave novu vrstu odnosa. Takođe je navodno insinuirao da je Wired namerno koristio upite kako bi naterao chatbot Perplexity-a da se ponaša na način na koji je to činio. On je naveo da obični korisnici neće dobiti iste rezultate. Što se tiče netačnih sažetaka koje je alat generisao, Srinivas je rekao: “Nikada nismo rekli da nikada nismo halucinirali.”
Izvor: Engadget