Cloudflare optužuje Perplexity za prikriveno indeksiranje sajtova uprkos zabranama
Kompanija Cloudflare objavila je izveštaj u kojem tvrdi da Perplexity, poznat po razvoju AI pretraživača, koristi prikrivene metode za indeksiranje veb-sadržaja, čak i kada mu je to izričito zabranjeno putem robots.txt fajla ili firewall pravila. Ove optužbe stavljaju dodatni fokus na etičke i tehničke dileme u prikupljanju podataka za treniranje veštačke inteligencije.
Prikriveni crawl i zaobilaženje pravila
Robots.txt je standardni fajl koji vlasnici sajtova koriste kako bi web crawler-ima naznačili šta sme, a šta ne sme da se indeksira. Iako Perplexity ima sopstvene označene botove pod imenima “PerplexityBot” i “Perplexity-User”, Cloudflare tvrdi da je Perplexity ipak uspeo da prikupi sadržaj sa novog sajta koji nije bio indeksiran, uprkos zabrani u robots.txt fajlu i aktivnim zaštitnim pravilima.
U testovima, otkriveno je da Perplexity koristi neidentifikovane botove koji se maskiraju kao obični korisnici, tačnije kao Google Chrome na macOS-u, čime zaobilaze pravila. Takođe, ti botovi koriste IP adrese koje nisu deo zvaničnog Perplexity IP opsega, kao i različite ASN (Autonomous System Numbers), što omogućava pristup velikom broju sajtova bez otkrivanja pravog identiteta.
Cloudflare je pratio ovakve aktivnosti kroz milione zahteva dnevno i na desetinama hiljada domena, zaključivši da Perplexity koristi napredne tehnike rotacije identiteta kako bi se domogao sadržaja koji mu je zabranjen.
Perplexity i AI – borba za pristup podacima
Up-to-date podaci sa sajtova su ključni za treniranje modernih AI sistema poput Perplexity-ja, koji se sve više koristi kao alternativa klasičnim pretraživačima. Perplexity je i ranije bio optuživan za kršenje pravila indeksiranja, 2024. godine više sajtova je prijavilo da Perplexity pristupa njihovom sadržaju iako su ga eksplicitno zabranili u robots.txt fajlu. Tada je kompanija tvrdila da su za to odgovorni treći servisi koje su koristili.
Kao odgovor na kritike, Perplexity je kasnije ušao u partnerstva sa više medijskih kuća i ponudio podelu prihoda od oglasa prikazanih uz njihov sadržaj, u pokušaju da ispravi prethodne greške.
Međutim, Cloudflare smatra da ovakve taktike predstavljaju ozbiljan problem i više nisu prihvatljive. Kompanija je zato uklonila Perplexity botove sa svoje liste verifikovanih crawler-a i implementirala metode za identifikaciju i blokadu prikrivenih botova koji pokušavaju da pristupe sadržaju njihovih korisnika.
Ovaj slučaj dodatno osvetljava složenu borbu između vlasnika sadržaja i AI firmi koje se oslanjaju na masovno indeksiranje, borbu koja će se, kako stvari stoje, još dugo nastaviti.
Izvor: Engadget



