Cloudflare acusa Perplexity de burlar regras da web

Resumo

Cloudflare acusou a Perplexity de empregar “rastreadores furtivos” para burlar o protocolo robots.txt e coletar dados de sites sem autorização.
A Perplexity já enfrenta outras críticas por desrespeito à propriedade intelectual e alegações de plágio em seu modelo de IA.
Como resposta, a Cloudflare retirou a Perplexity da lista de “bots verificados” e implementou novas regras de firewall para bloquear o acesso não autorizado.

Após ser investigado pela Amazon, o buscador com IA Perplexity enfrenta uma nova denúncia. Nessa segunda-feira (04/08), a Cloudflare acusou a startup de empregar “rastreadores furtivos” para extrair dados de websites.

A empresa de segurança de rede afirma que a Perplexity ignora as instruções do arquivo robots.txt, que permite aos proprietários de sites proibir a raspagem de dados por bots.

Essa manobra viola um padrão em vigor há mais de 30 anos e seria uma tentativa de coletar dados para alimentar seu serviço de IA, mesmo contra a vontade dos criadores de conteúdo.

O que a Cloudflare descobriu?

As alegações surgiram após a Cloudflare receber reclamações de clientes que haviam configurado seus sites para proibir a coleta de dados por rastreadores da Perplexity, tanto através do arquivo robots.txt quanto por meio de firewalls. Apesar dessas barreiras, o conteúdo continuava a ser acessado.

Diante das queixas, pesquisadores iniciaram uma investigação e descobriram um padrão de comportamento. Quando os rastreadores encontravam um bloqueio, a Perplexity passava a utilizar um bot furtivo, não declarado, que empregava uma série de táticas para mascarar sua identidade e atividade.

Este rastreador operava a partir de múltiplos endereços de IP, alternando entre eles para contornar as restrições. “Essa atividade foi observada em dezenas de milhares de domínios e milhões de solicitações por dia”, escrevem os pesquisadores.

A Cloudflare ilustrou o fluxo da técnica com um diagrama, mostrando que o bloqueio do rastreador oficial servia como um gatilho para a ativação do rastreador não declarado, que então conseguia acessar e extrair o conteúdo dos sites.

O que é o protocolo robots.txt?

É um arquivo de texto simples colocado no diretório raiz de um site que permite aos administradores informar aos bots (como rastreadores) quais seções de uma página não devem ser acessadas ou processadas. Pense nele como uma espécie de placa de “Acesso Restrito” em um estabelecimento.

Quando um robô de um mecanismo de busca (como o Googlebot) visita um site, a primeira coisa que ele faz é procurar pelo arquivo robots.txt. Ele lê as regras contidas no arquivo e as segue antes de começar a rastrear o restante da página.

O protocolo robots.txt, ou Protocolo de Exclusão de Robôs, foi proposto em 1994 pelo engenheiro Martijn Koster e se tornou padrão da Força-Tarefa de Engenharia da Internet (IETF) em 2022, sendo amplamente respeitado por operadores de bots e mecanismos de busca.

Perplexity enfrenta outras acusações

Esta não é a primeira vez que a Perpexity enfrenta denúncias de práticas agressivas de coleta de dados e desrespeito à propriedade intelectual. A empresa já foi criticada por supostamente plagiar conteúdo.

A Forbes acusou a empresa de fraude ao publicar um artigo “extremamente semelhante a uma reportagem proprietária”, lançada um dia antes. Já a Wired relatou padrões de tráfego suspeitos de endereços de IP, provavelmente ligados à Perplexity.

As críticas se estendem a outras gigantes da tecnologia. No ano passado, o CEO do Reddit, Steve Huffman, mencionou a dificuldade em bloquear a coleta de dados por empresas de IA. “Tivemos a Microsoft, a Anthropic e a Perplexity agindo como se todo o conteúdo da internet fosse gratuito para eles. Essa é a posição real deles”, afirmou ao The Verge.

As novas alegações da Cloudflare fornecem evidências técnicas que fortalecem essas queixas. Em resposta às descobertas, a empresa de segurança informou que removeu a Perplexity de sua lista de “bots verificados” e implementou novas regras de firewall para bloquear o rastreamento furtivo.

Com informações da Cloudflare e ArsTechnica

Cloudflare acusa Perplexity de burlar regras da web

O que a Cloudflare descobriu?

O que é o protocolo robots.txt?

Perplexity enfrenta outras acusações

Related Posts

Deixe um comentário Cancelar resposta