A Fundação Wikimedia, a organização que cobre a Wikipedia e uma dúzia de outros projetos de conhecimento colaborativo, anunciou na quarta-feira que o consumo de largura de banda para downloads multimídia do Wikimedia Commons aumentou em 50% desde janeiro de 2024.
A razão, escreveu a organização em um postagem de blog na terça-feira, não se deve à crescente demanda de usuários sedentos por conhecimento, mas de scrapers automatizados que buscam treinar modelos de IA.
“Nossa infraestrutura é projetada para suportar picos de tráfego repentino de humanos durante eventos de grande interesse, mas a quantidade de tráfego gerada por bots scraper é sem precedentes e apresenta riscos e custos crescentes,” diz a postagem.
Wikimedia Commons é um repositório livre e acessível de imagens, vídeos e arquivos de áudio disponíveis sob licenças abertas ou que estão de outra forma no domínio público.
Ao se aprofundar, a Wikimedia afirma que quase dois terços (65%) do tráfego mais “caro” — ou seja, aquele que consome mais recursos em termos do tipo de conteúdo acessado — provém de bots. No entanto, apenas 35% das visualizações de página totais vêm desses bots. A razão para essa disparidade, de acordo com a Wikimedia, é que o conteúdo frequentemente acessado fica mais próximo do usuário em seu cache, enquanto outro conteúdo menos frequentemente acessado é armazenado mais longe, no “datacenter central”, que é mais caro para fornecer conteúdo. Este é o tipo de conteúdo que os bots normalmente procuram.
“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos — muitas vezes semelhantes — os bots crawler tendem a ‘ler em massa’ um número maior de páginas e também visitam páginas menos populares,” escreve a Wikimedia. “Isso significa que esses tipos de solicitações são mais propensos a ser redirecionados para o datacenter central, o que torna muito mais caro em termos de consumo de nossos recursos.”
A questão é que a equipe de confiabilidade do site da Fundação Wikimedia está gastando muito tempo e recursos para bloquear crawlers a fim de evitar interrupções para usuários regulares. E tudo isso antes de considerarmos os custos de nuvem que a Fundação enfrenta.
Na verdade, isso representa parte de uma tendência em rápido crescimento que ameaça a própria existência da internet aberta. No mês passado, o engenheiro de software e defensor de código aberto Drew DeVault lamentou o fato de que crawlers de IA ignoram arquivos “robots.txt” que foram projetados para afastar o tráfego automatizado. E o engenheiro pragmático Gergely Orosz também reclamou na semana passada que scrapers de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus próprios projetos.
Enquanto a infraestrutura de código aberto, em particular, está sob ataque, desenvolvedores estão lutando de volta com “inteligência e vingança”, como o TechCrunch escreveu na semana passada. Algumas empresas de tecnologia também estão fazendo sua parte para abordar a questão — a Cloudflare, por exemplo, lançou recentemente AI Labyrinth, que usa conteúdo gerado por IA para desacelerar crawlers.
No entanto, é muito um jogo de gato e rato que pode, em última análise, forçar muitos editores a se protegerem por trás de logins e paywalls — para o detrimento de todos que usam a web hoje.
Conteúdo relacionado
A IBM lança um novo mainframe projetado para a era da IA
A IBM está lançando a versão mais recente de seu hardware de mainframe, que inclui novas atualizações destinadas a acelerar a adoção de IA. A empresa de…
$115 milhões foram investidos nesta startup que torna a engenharia 1.000 vezes mais rápida — e Bezos, Altman e Nvidia estão apostando em seu sucesso.
Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta na indústria. Saiba…
Executivo da Meta nega que a empresa tenha aumentado artificialmente os scores de benchmark do Llama 4.
Um executivo da Meta negou na segunda-feira um boato de que a empresa ajustou seus novos modelos de IA para se apresentar bem em benchmarks específicos,…