Os advogados dos autores em um processo de copyright contra a Meta alegam que o CEO da Meta, Mark Zuckerberg, autorizou a equipe responsável pelos modelos de IA Llama da empresa a usar um conjunto de dados de e-books e artigos pirateados para o treinamento.
O caso, Kadrey v. Meta, é um entre muitos contra gigantes da tecnologia que estão desenvolvendo IA, acusando as empresas de treinar modelos usando obras protegidas por direitos autorais sem permissão. Na maior parte, os réus como a Meta afirmaram que estão protegidos pela doutrina do uso justo, que permite o uso de obras protegidas por direitos autorais para criar algo novo, desde que seja suficientemente transformador. Muitos criadores rejeitam esse argumento.
Em documentos recentemente desclassificados apresentados ao Tribunal Distrital dos EUA para o Northern District of California na última quarta-feira, os autores de Kadrey v. Meta, que incluem os bestsellers Sarah Silverman e Ta-Nehisi Coates, relatam o testemunho da Meta de late do ano passado, durante o qual foi revelado que Zuckerberg aprovou o uso de um conjunto de dados chamado LibGen para o treinamento relacionado ao Llama.
LibGen, que se descreve como um “agregador de links”, fornece acesso a obras protegidas por direitos autorais de editoras como Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education. O LibGen já foi processado várias vezes, ordenado a fechar e multado em dezenas de milhões de dólares por infração de direitos autorais.
De acordo com o testemunho da Meta, conforme relatado pelos advogados dos autores, Zuckerberg autorizou o uso do LibGen para treinar pelo menos um dos modelos Llama da Meta, apesar das preocupações dentro da equipe de executivos de IA da Meta e de outros na empresa. O documento cita funcionários da Meta referindo-se ao LibGen como um “conjunto de dados que sabemos ser pirata” e sinalizando que seu uso “pode comprometer a [posição de negociação] da Meta com os reguladores”.
O documento também menciona um memorando para os tomadores de decisão de IA da Meta, observando que, após “escalonamento para MZ”, a equipe de IA da Meta “[foi] aprovada para usar o LibGen.” (MZ, aqui, é um acrônimo bastante óbvio para “Mark Zuckerberg”.)
Os detalhes parecem estar em linha com a reportagem do The New York Times em abril passado, que sugeria que a Meta cortou caminhos para reunir dados para sua IA. Em um momento, a Meta estava contratando prestadores de serviços na África para agregar resumos de livros e considerando comprar a editora Simon & Schuster, de acordo com o Times. Mas os executivos da empresa decidiram que levaria tempo demais para negociar licenças e raciocinaram que o uso justo era uma defesa sólida.
O documento de quarta-feira contém novas acusações, como que a Meta pode ter tentado ocultar sua suposta infração removendo a atribuição dos dados do LibGen.
De acordo com os advogados dos autores, o engenheiro da Meta, Nikolay Bashlykov, que trabalha na equipe de pesquisa do Llama, escreveu um script para remover informações de copyright, incluindo a palavra “copyright” e “agradecimentos”, de e-books no LibGen. Separadamente, a Meta supostamente removeu marcadores de copyright de artigos de revistas científicas e “metadados de fonte” nos dados de treinamento que usou para o Llama.
“Essa descoberta sugere que a Meta remove [informações de copyright] não apenas para fins de treinamento,” afirma o documento, “mas também para ocultar sua infração de copyright, pois remover obras protegidas por direitos autorais … impede que o Llama produza informações de copyright que possam alertar os usuários do Llama e o público sobre a infração da Meta.”
Segundo o documento mais recente, a Meta também revelou durante depoimentos que torrenteou o LibGen, uma ação que fez com que alguns engenheiros de pesquisa da Meta hesitassem. Torrentar, uma maneira de distribuir arquivos pela web, requer que quem torrentou “seede”, ou faça upload, dos arquivos que está tentando obter.
Os advogados dos autores alegam que a Meta efetivamente se envolveu em outra forma de infração de copyright ao torrentar o LibGen e, assim, ajudar a espalhar seu conteúdo. A Meta também tentou ocultar suas atividades, alegam os advogados, minimizando o número de arquivos que enviou.
De acordo com o documento, o chefe de IA generativa da Meta, Ahmad Al-Dahle, “liberou o caminho” para torrentar o LibGen — ignorando as reservas de Bashlykov de que isso “poderia ser legalmente inadequado.”
“Se a Meta tivesse comprado as obras dos autores em uma livraria ou as pegasse emprestadas de uma biblioteca e treinasse seus modelos Llama com elas sem uma licença, teria cometido infração de copyright,” escreveram os advogados dos autores no documento. “A decisão da Meta de contornar métodos legais de aquisição de livros e de se tornar um participante ciente em uma rede de torrent ilegal … serve como prova de infração de copyright.”
O caso contra a Meta ainda está longe de ser decidido. Até agora, ele se refere apenas aos modelos Llama mais antigos da Meta — não suas versões mais recentes. E o tribunal pode bem decidir a favor da Meta se for convencido pelo argumento de uso justo da empresa. (Em 2023, um tribunal derrubou várias reivindicações de direitos autorais relacionadas à IA contra a Meta, considerando que os autores não conseguiram estabelecer que a infração ocorreu.)
Mas as alegações não refletem bem sobre a Meta, como o juiz que preside o caso, o juiz Vince Chhabria, observou em uma ordem na quarta-feira rejeitando o pedido da Meta para redigir grandes partes do documento.
“É claro que o pedido de sigilo da Meta não é projetado para proteger a divulgação de informações comerciais sensíveis que os concorrentes poderiam usar a seu favor,” escreveu Chhabria. “Em vez disso, é projetado para evitar publicidade negativa.”
Entramos em contato com a assessoria de imprensa da Meta para um comentário e atualizaremos este artigo se recebermos uma resposta.
A TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.
Conteúdo relacionado
Arquitetura inteligente em vez de potência bruta: DeepSeek quebra a abordagem do “maior é melhor” no desenvolvimento de IA.
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de ponta da…
O Tülu 3 da Allen AI Acaba de se Tornar o Rival Inesperado da DeepSeek
[the_ad id="145565"] As manchetes continuam a surgir. Os modelos da DeepSeek têm desafiado referências, estabelecendo novos padrões e gerando muito barulho. No entanto, algo…
DeepSeek: Separando fato de hype
[the_ad id="145565"] DeepSeek está fazendo sucesso no mundo da IA, chamando a atenção da mídia e dominando as lojas de aplicativos, superando até o ChatGPT da OpenAI. Mas o que…