Bolt42

A Fundação Wikimedia, a organização que cobre a Wikipedia e uma dúzia de outros projetos de conhecimento colaborativo, anunciou na quarta-feira que o consumo de largura de banda para downloads multimídia do Wikimedia Commons aumentou em 50% desde janeiro de 2024.

A razão, escreveu a organização em um postagem de blog na terça-feira, não se deve à crescente demanda de usuários sedentos por conhecimento, mas de scrapers automatizados que buscam treinar modelos de IA.

“Nossa infraestrutura é projetada para suportar picos de tráfego repentino de humanos durante eventos de grande interesse, mas a quantidade de tráfego gerada por bots scraper é sem precedentes e apresenta riscos e custos crescentes,” diz a postagem.

Wikimedia Commons é um repositório livre e acessível de imagens, vídeos e arquivos de áudio disponíveis sob licenças abertas ou que estão de outra forma no domínio público.

Ao se aprofundar, a Wikimedia afirma que quase dois terços (65%) do tráfego mais “caro” — ou seja, aquele que consome mais recursos em termos do tipo de conteúdo acessado — provém de bots. No entanto, apenas 35% das visualizações de página totais vêm desses bots. A razão para essa disparidade, de acordo com a Wikimedia, é que o conteúdo frequentemente acessado fica mais próximo do usuário em seu cache, enquanto outro conteúdo menos frequentemente acessado é armazenado mais longe, no “datacenter central”, que é mais caro para fornecer conteúdo. Este é o tipo de conteúdo que os bots normalmente procuram.

“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos — muitas vezes semelhantes — os bots crawler tendem a ‘ler em massa’ um número maior de páginas e também visitam páginas menos populares,” escreve a Wikimedia. “Isso significa que esses tipos de solicitações são mais propensos a ser redirecionados para o datacenter central, o que torna muito mais caro em termos de consumo de nossos recursos.”

A questão é que a equipe de confiabilidade do site da Fundação Wikimedia está gastando muito tempo e recursos para bloquear crawlers a fim de evitar interrupções para usuários regulares. E tudo isso antes de considerarmos os custos de nuvem que a Fundação enfrenta.

Na verdade, isso representa parte de uma tendência em rápido crescimento que ameaça a própria existência da internet aberta. No mês passado, o engenheiro de software e defensor de código aberto Drew DeVault lamentou o fato de que crawlers de IA ignoram arquivos “robots.txt” que foram projetados para afastar o tráfego automatizado. E o engenheiro pragmático Gergely Orosz também reclamou na semana passada que scrapers de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus próprios projetos.

Enquanto a infraestrutura de código aberto, em particular, está sob ataque, desenvolvedores estão lutando de volta com “inteligência e vingança”, como o TechCrunch escreveu na semana passada. Algumas empresas de tecnologia também estão fazendo sua parte para abordar a questão — a Cloudflare, por exemplo, lançou recentemente AI Labyrinth, que usa conteúdo gerado por IA para desacelerar crawlers.

No entanto, é muito um jogo de gato e rato que pode, em última análise, forçar muitos editores a se protegerem por trás de logins e paywalls — para o detrimento de todos que usam a web hoje.


    três × 4 =

    Bolt42