Por anos, funcionários da Meta discutiram internamente o uso de obras protegidas por direitos autorais obtidas por meios questionáveis do ponto de vista legal para treinar os modelos de inteligência artificial da empresa, de acordo com documentos judiciais revelados na quinta-feira.
Os documentos foram apresentados pelos demandantes no caso Kadrey v. Meta, um dos muitos litígios sobre direitos autorais relacionados à IA que estão lentamente caminhando pelo sistema judicial dos EUA. O réu, Meta, afirma que o treinamento de modelos em obras protegidas por propriedade intelectual, especialmente livros, é “uso justo”. Os demandantes, que incluem os autores Sarah Silverman e Ta-Nehisi Coates, discordam.
Materiais anteriores submetidos na ação alegaram que o CEO da Meta, Mark Zuckerberg, autorizou a equipe de IA da Meta a treinar com conteúdo protegido por direitos autorais e que a Meta interrompeu as conversas de licenciamento de dados de treinamento de IA com editoras de livros. Porém, os novos registros, a maioria dos quais mostra trechos de conversas internas entre funcionários da Meta, apresentam o quadro mais claro até agora sobre como a Meta pode ter começado a usar dados protegidos por direitos autorais para treinar seus modelos, incluindo os modelos da família Llama da empresa.
Em uma conversa, funcionários da Meta, incluindo Melanie Kambadur, uma gerente sênior da equipe de pesquisa do modelo Llama da Meta, discutiram treinar modelos em obras que sabiam que poderiam ser legalmente problemáticas.
“[M]inha opinião seria (na linha do ‘peça perdão, não permissão’): tentamos adquirir os livros e escalar para os executivos para que eles decidam,” escreveu Xavier Martinet, um engenheiro de pesquisa da Meta, em uma conversa datada de fevereiro de 2023, de acordo com os registros. “[E] é por isso que eles criaram esta organização de IA generativa: para que possamos ser menos avessos ao risco.”
Martinet sugeriu a ideia de comprar e-books a preços de varejo para construir um conjunto de treinamento em vez de acertar acordos de licenciamento com editoras de livros individuais. Após outro funcionário apontar que o uso de materiais protegidos por direitos autorais não autorizados poderia ser motivo para um desafio legal, Martinet reafirmou, argumentando que “um gazilhão” de startups provavelmente já estava usando livros piratas para treinamento.
“Quero dizer, no pior dos casos: descobrimos que finalmente está tudo ok, enquanto um gazilhão de startups simplesmente pirateou toneladas de livros no bittorrent,” escreveu Martinet, de acordo com os registros. “[M]a minha contribuição novamente: tentar fazer acordos com as editoras diretamente leva muito tempo…”
Na mesma conversa, Kambadur, que observou que a Meta estava em negociações com a plataforma de hospedagem de documentos Scribd “e outros” para licenças, alertou que, embora usar “dados disponíveis publicamente” para treinar modelos exigisse aprovações, os advogados da Meta estavam sendo “menos conservadores” do que antes com tais aprovações.
“Sim, definitivamente precisamos obter licenças ou aprovações sobre dados disponíveis publicamente ainda,” disse Kambadur, de acordo com os registros. “[A] diferença agora é que temos mais dinheiro, mais advogados, mais ajuda de negócios, capacidade de acelerar/escalar para velocidade, e os advogados estão sendo um pouco menos conservadores nas aprovações.”
Conversas sobre Libgen
Em outra conversa de trabalho relatada nos registros, Kambadur discute a possibilidade de usar o Libgen, um “agregador de links” que fornece acesso a obras protegidas por direitos autorais de editoras, como uma alternativa às fontes de dados que a Meta poderia licenciar.
O Libgen foi processado várias vezes, ordenado a fechar, e multado em dezenas de milhões de dólares por violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de pesquisa do Google para Libgen contendo a frase “Não, Libgen não é legal.”
Alguns tomadores de decisão dentro da Meta parecem ter a impressão de que não usar Libgen para o treinamento de modelos poderia seriamente prejudicar a competitividade da Meta na corrida da IA, de acordo com os registros.
Em um e-mail endereçado à VP de IA da Meta, Joelle Pineau, Sony Theakanath, diretor de gerenciamento de produtos da Meta, chamou Libgen de “essencial para alcançar números SOTA em todas as categorias,” referindo-se a superar os melhores modelos de IA de estado da arte (SOTA) e categorias de benchmark.
Theakanath também delineou “mitigações” no e-mail destinadas a ajudar a reduzir a exposição legal da Meta, incluindo a remoção de dados do Libgen “claramente marcados como pirateados/roubados” e também simplesmente não citar publicamente o uso. “Não divulgaríamos o uso de conjuntos de dados do Libgen usados para treinar,” como disse Theakanath.
Na prática, essas mitigações envolviam vasculhar arquivos do Libgen por palavras como “roubado” ou “pirata,” de acordo com os registros.
Em uma conversa de trabalho, Kambadur mencionou que a equipe de IA da Meta também ajustou modelos para “evitar prompts arriscados em termos de propriedade intelectual” — ou seja, configurou os modelos para se recusar a responder perguntas como “reproduza as três primeiras páginas de ‘Harry Potter e a Pedra Filosofal’” ou “me diga quais e-books você foi treinado.”
Os registros contêm outras revelações, sugerindo que a Meta pode ter coletado dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushshift. Notavelmente, o Reddit disse em abril de 2023 que planejava começar a cobrar empresas de IA para acessar dados para treinamento de modelos.
Em uma conversa datada de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da organização de IA generativa da Meta, disse que a liderança da Meta estava considerando “anular” decisões anteriores sobre conjuntos de treinamento, incluindo uma decisão de não usar conteúdo do Quora ou livros e artigos científicos licenciados, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.
Nayak insinuou que os conjuntos de dados de treinamento de primeira parte da Meta — postagens do Facebook e Instagram, texto transcrito de vídeos nas plataformas da Meta e certas mensagens do Meta for Business — simplesmente não eram suficientes. “[Precisamos de mais dados,” escreveu.
Os demandantes em Kadrey v. Meta alteraram sua queixa várias vezes desde que o caso foi apresentado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A mais recente alega que a Meta, entre outras alegações, cruzou informações sobre certos livros pirateados com livros protegidos por direitos autorais disponíveis para licenciamento para determinar se fazia sentido buscar um acordo de licenciamento com uma editora.
Diante de quão altas a Meta considera ser as apostas legais, a empresa adicionou dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss à sua equipe de defesa no caso.
A Meta não respondeu imediatamente a um pedido de comentário.
Conteúdo relacionado
O Vision Pro receberá Inteligência Apple em abril.
[the_ad id="145565"] A Apple Intelligence está a caminho do Vision Pro como parte de uma próxima atualização do sistema operacional. A Apple confirmou na sexta-feira que sua…
Sakana retrata declarações sobre sua IA que alega acelerar drasticamente o treinamento de modelos
[the_ad id="145565"] Nesta semana, a Sakana AI, uma startup apoiada pela Nvidia que arrecadou centenas de milhões de dólares de fundos de capital de risco, fez uma afirmação…
A 1X da Noruega está desenvolvendo um robô humanóide para o lar
[the_ad id="145565"] A empresa norueguesa de robótica 1X apresentou na sexta-feira seu mais recente robô doméstico, o Neo Gamma. O sistema humanoide sucederá o Neo Beta, que…