Pokloni za geek-a | PC Press

Cloudflare optužuje Perplexity za prikriveno indeksiranje sajtova uprkos zabranama

Kompanija Cloudflare objavila je izveštaj u kojem tvrdi da Perplexity, poznat po razvoju AI pretraživača, koristi prikrivene metode za indeksiranje veb-sadržaja, čak i kada mu je to izričito zabranjeno putem robots.txt fajla ili firewall pravila. Ove optužbe stavljaju dodatni fokus na etičke i tehničke dileme u prikupljanju podataka za treniranje veštačke inteligencije.

PCPress.rs Image

Prikriveni crawl i zaobilaženje pravila

Robots.txt je standardni fajl koji vlasnici sajtova koriste kako bi web crawler-ima naznačili šta sme, a šta ne sme da se indeksira. Iako Perplexity ima sopstvene označene botove pod imenima “PerplexityBot” i “Perplexity-User”, Cloudflare tvrdi da je Perplexity ipak uspeo da prikupi sadržaj sa novog sajta koji nije bio indeksiran, uprkos zabrani u robots.txt fajlu i aktivnim zaštitnim pravilima.

Datalab serveri

U testovima, otkriveno je da Perplexity koristi neidentifikovane botove koji se maskiraju kao obični korisnici, tačnije kao Google Chrome na macOS-u, čime zaobilaze pravila. Takođe, ti botovi koriste IP adrese koje nisu deo zvaničnog Perplexity IP opsega, kao i različite ASN (Autonomous System Numbers), što omogućava pristup velikom broju sajtova bez otkrivanja pravog identiteta.

Pročitajte i:  Perplexity AI i Getty Images sklopili višegodišnje partnerstvo za licencirane slike

Cloudflare je pratio ovakve aktivnosti kroz milione zahteva dnevno i na desetinama hiljada domena, zaključivši da Perplexity koristi napredne tehnike rotacije identiteta kako bi se domogao sadržaja koji mu je zabranjen.

Perplexity i AI – borba za pristup podacima

Up-to-date podaci sa sajtova su ključni za treniranje modernih AI sistema poput Perplexity-ja, koji se sve više koristi kao alternativa klasičnim pretraživačima. Perplexity je i ranije bio optuživan za kršenje pravila indeksiranja, 2024. godine više sajtova je prijavilo da Perplexity pristupa njihovom sadržaju iako su ga eksplicitno zabranili u robots.txt fajlu. Tada je kompanija tvrdila da su za to odgovorni treći servisi koje su koristili.

Kao odgovor na kritike, Perplexity je kasnije ušao u partnerstva sa više medijskih kuća i ponudio podelu prihoda od oglasa prikazanih uz njihov sadržaj, u pokušaju da ispravi prethodne greške.

Međutim, Cloudflare smatra da ovakve taktike predstavljaju ozbiljan problem i više nisu prihvatljive. Kompanija je zato uklonila Perplexity botove sa svoje liste verifikovanih crawler-a i implementirala metode za identifikaciju i blokadu prikrivenih botova koji pokušavaju da pristupe sadržaju njihovih korisnika.

Pročitajte i:  Perplexity AI - jednostavnije do patenata

Ovaj slučaj dodatno osvetljava složenu borbu između vlasnika sadržaja i AI firmi koje se oslanjaju na masovno indeksiranje, borbu koja će se, kako stvari stoje, još dugo nastaviti.

Izvor: Engadget

Facebook komentari:
Tagovi: