A Fundação Wikimedia, a organização que cobre a Wikipedia e uma dúzia de outros projetos de conhecimento colaborativo, anunciou na quarta-feira que o consumo de largura de banda para downloads multimídia do Wikimedia Commons aumentou em 50% desde janeiro de 2024.
A razão, escreveu a organização em um postagem de blog na terça-feira, não se deve à crescente demanda de usuários sedentos por conhecimento, mas de scrapers automatizados que buscam treinar modelos de IA.
“Nossa infraestrutura é projetada para suportar picos de tráfego repentino de humanos durante eventos de grande interesse, mas a quantidade de tráfego gerada por bots scraper é sem precedentes e apresenta riscos e custos crescentes,” diz a postagem.
Wikimedia Commons é um repositório livre e acessível de imagens, vídeos e arquivos de áudio disponíveis sob licenças abertas ou que estão de outra forma no domínio público.
Ao se aprofundar, a Wikimedia afirma que quase dois terços (65%) do tráfego mais “caro” — ou seja, aquele que consome mais recursos em termos do tipo de conteúdo acessado — provém de bots. No entanto, apenas 35% das visualizações de página totais vêm desses bots. A razão para essa disparidade, de acordo com a Wikimedia, é que o conteúdo frequentemente acessado fica mais próximo do usuário em seu cache, enquanto outro conteúdo menos frequentemente acessado é armazenado mais longe, no “datacenter central”, que é mais caro para fornecer conteúdo. Este é o tipo de conteúdo que os bots normalmente procuram.
“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos — muitas vezes semelhantes — os bots crawler tendem a ‘ler em massa’ um número maior de páginas e também visitam páginas menos populares,” escreve a Wikimedia. “Isso significa que esses tipos de solicitações são mais propensos a ser redirecionados para o datacenter central, o que torna muito mais caro em termos de consumo de nossos recursos.”
A questão é que a equipe de confiabilidade do site da Fundação Wikimedia está gastando muito tempo e recursos para bloquear crawlers a fim de evitar interrupções para usuários regulares. E tudo isso antes de considerarmos os custos de nuvem que a Fundação enfrenta.
Na verdade, isso representa parte de uma tendência em rápido crescimento que ameaça a própria existência da internet aberta. No mês passado, o engenheiro de software e defensor de código aberto Drew DeVault lamentou o fato de que crawlers de IA ignoram arquivos “robots.txt” que foram projetados para afastar o tráfego automatizado. E o engenheiro pragmático Gergely Orosz também reclamou na semana passada que scrapers de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus próprios projetos.
Enquanto a infraestrutura de código aberto, em particular, está sob ataque, desenvolvedores estão lutando de volta com “inteligência e vingança”, como o TechCrunch escreveu na semana passada. Algumas empresas de tecnologia também estão fazendo sua parte para abordar a questão — a Cloudflare, por exemplo, lançou recentemente AI Labyrinth, que usa conteúdo gerado por IA para desacelerar crawlers.
No entanto, é muito um jogo de gato e rato que pode, em última análise, forçar muitos editores a se protegerem por trás de logins e paywalls — para o detrimento de todos que usam a web hoje.
Conteúdo relacionado
Deck levanta $12 milhões para ‘Plaidificar’ qualquer site usando IA
[the_ad id="145565"] A Deck, uma startup que se posiciona como “o Plaid para o resto da internet”, arrecadou US$ 12 milhões em uma rodada de financiamento Series A — cerca de…
Pesquisadores da Microsoft afirmam ter desenvolvido um modelo de IA hipereficiente que pode ser executado em CPUs.
[the_ad id="145565"] Pesquisadores da Microsoft afirmam ter desenvolvido o maior modelo de IA de 1 bit, também conhecido como “bitnet”, até hoje. Chamado de BitNet b1.58 2B4T,…
O financiamento de startups alcançou recordes no primeiro trimestre, mas as perspectivas para 2025 ainda são pessimistas.
[the_ad id="145565"] As startups atraíram US$ 91,5 bilhões em investimentos de capital de risco no primeiro trimestre, de acordo com o último relatório da fornecedora de dados…