Reddit processa a Anthropic por supostamente não pagar pelos dados de treinamento

O Reddit está processando a Anthropic por allegedly usar os dados do site para treinar modelos de IA sem um contrato de licenciamento adequado, segundo uma denúncia apresentada em um tribunal do norte da Califórnia na quarta-feira. O Reddit alega na denúncia que o uso não autorizado dos dados do site para fins comerciais foi ilegal e afirma que a startup de IA violou o acordo de usuário do Reddit.

O processo do Reddit torna-se a primeira grande empresa de tecnologia a desafiar legalmente um fornecedor de modelos de IA sobre suas práticas de dados de treinamento, juntando-se a uma série de editores que processaram empresas de tecnologia em fundamentos semelhantes.

O New York Times processou a OpenAI e a Microsoft por treinar com seus artigos de notícias sem pagamento ou permissão. Enquanto isso, Sarah Silverman e outros autores de livros processaram a Meta por treinar modelos de IA com seus livros sem aprovação. Editoras de música e artistas também apresentaram reivindicações semelhantes contra startups de geração de áudio, vídeo e imagens de IA, alegando uso indevido de seu conteúdo.

“Não toleraremos entidades em busca de lucro, como a Anthropic, explorando comercialmente o conteúdo do Reddit por bilhões de dólares sem qualquer retorno para os redditors ou respeito pela privacidade deles,” disse Ben Lee, diretor jurídico do Reddit, em uma declaração ao TechCrunch.

Notavelmente, o Reddit fechou acordos com outros fornecedores de modelos de IA, incluindo a OpenAI e a Google, que permitem que essas empresas treinem modelos de IA com os dados do Reddit e que as postagens do site apareçam nas respostas de seus chatbots de IA. No entanto, na denúncia, o Reddit afirma que submete a OpenAI e a Google a certos termos que protegem os interesses e a privacidade de seus usuários.

Sam Altman, o CEO da OpenAI, possui um participação de 8,7% no Reddit, tornando-o o terceiro maior acionista, e já foi membro do conselho da empresa.

Na denúncia, o Reddit afirma que se aproximou da Anthropic e deixou claro que a startup de IA não tinha autorização para coletar ou usar o conteúdo do Reddit. No entanto, o Reddit alega que a Anthropic “se recusou a se envolver.”

“Discordamos das alegações do Reddit e nos defenderemos vigorosamente,” disse a porta-voz da Anthropic, Danielle Ghighlieri, em uma declaração por e-mail ao TechCrunch.

O Reddit alega em sua denúncia que os bots coletadores da Anthropic ignoraram os arquivos robots.txt da rede social, um padrão que sinaliza para sistemas automatizados não rastrearem sites. A plataforma da comunidade online afirma que, após a Anthropic afirmar ter bloqueado seus bots de coletar dados do Reddit em 2024, os bots da Anthropic continuaram a coletar da plataforma mais de 100.000 vezes.

O Reddit está pedindo à Anthropic que pague danos compensatórios, bem como restituição pelo valor pelo qual a Anthropic foi enriquecida ao coletar o conteúdo do Reddit. O Reddit também solicita uma liminar proibindo a Anthropic de continuar a usar o conteúdo do Reddit.