O CEO da Meta, Mark Zuckerberg, parece ter usado a batalha do YouTube para remover conteúdo pirata como uma defesa para o uso da Meta de um conjunto de dados contendo e-books protegidos por direitos autorais, revela trechos recém-divulgados de uma deposição que ele deu no final do ano passado.
A deposição, que fez parte de uma queixa apresentada ao tribunal pelos advogados dos autores, está relacionada ao caso de direitos autorais de IA Kadrey v. Meta. É um dos muitos casos semelhantes que tramitam pelo sistema judicial dos EUA, colocando empresas de IA contra autores e outros detentores de propriedade intelectual. Na maioria das vezes, os réus nesses casos – empresas de IA – afirmam que treinar com conteúdo protegido é “uso justo”. Muitos detentores de direitos autorais discordam.
“Por exemplo, o YouTube, eu acho, pode acabar hospedando algumas coisas que as pessoas pirateiam por um certo período, mas o YouTube está tentando remover esse conteúdo,” disse Zuckerberg durante sua deposição, de acordo com trechos de uma transcrição disponibilizados na noite de quarta-feira. “E a vasta maioria do conteúdo no YouTube, eu assumiria, é bom e eles têm a licença para isso.”
Os trechos da deposição de Zuckerberg fornecem algumas pistas sobre o seu pensamento em relação ao conteúdo protegido por direitos autorais e ao uso justo. No entanto, deve-se notar que uma transcrição completa da deposição não foi divulgada. O TechCrunch entrou em contato com a Meta para obter contexto adicional e irá atualizar o artigo caso a empresa responda.
Com base nos trechos da deposição, Zuckerberg parece estar defendendo o uso pela Meta de um conjunto de dados de treinamento de e-books chamado LibGen para desenvolver sua família de modelos de IA conhecidos como Llama. O Llama da Meta compete com modelos de destaque de empresas de IA como a OpenAI.
O LibGen, que se descreve como um “agregador de links”, fornece acesso a obras protegidas por direitos autorais de editoras como Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education. O LibGen foi processado várias vezes, recebeu ordens de fechamento e foi multado em dezenas de milhões de dólares por infração de direitos autorais.
De acordo com documentos judiciais tornados públicos esta semana, Zuckerberg supostamente autorizou o uso do LibGen para treinar pelo menos um dos modelos Llama da Meta, apesar das preocupações dentro das equipes de executivos de IA e pesquisa da empresa em relação às implicações legais.
Os advogados dos autores, que incluem os autores de best-sellers Sarah Silverman e Ta-Nehisi Coates, citaram funcionários da Meta que se referiam ao LibGen como um “conjunto de dados que sabemos ser pirata” e alertando que seu uso “pode prejudicar [a posição da Meta] nas negociações com reguladores”, de acordo com um arquivo legal.
Durante sua deposição, Zuckerberg alegou que “nunca tinha ouvido falar” do LibGen.
“Eu entendo que você está tentando me fazer dar uma opinião sobre o LibGen, que eu realmente nunca ouvi falar,” disse Zuckerberg durante a deposição. “É só que eu não tenho conhecimento daquela coisa específica.”
Sob questionamento de um dos advogados dos autores, David Boies, Zuckerberg explicou por que seria irracional proibir o uso de um conjunto de dados como o LibGen.
“Então, eu gostaria de ter uma política contra as pessoas usarem o YouTube porque algum conteúdo pode ser protegido por direitos autorais? Não,” afirmou. “[T]em casos em que ter tal proibição geral pode não ser a coisa certa a fazer.”
Zuckerberg afirmou que a Meta deve ser “bem cuidadosa” ao treinar com material protegido por direitos autorais.
“Você sabe, [se houver] alguém que esteja fornecendo um site e eles estão tentando intencionalmente violar os direitos das pessoas… obviamente é algo com que gostaríamos de ser cautelosos ou cuidadosos sobre como nos engajamos com isso ou talvez até prevenir que nossas equipes se envolvam,” disse Zuckerberg durante sua deposição, de acordo com a transcrição.
Novas alegações
Os advogados dos autores no caso Kadrey v. Meta alteraram a queixa várias vezes desde que foi apresentada no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco em 2023. A mais recente queixa alterada apresentada pelos advogados dos autores na quarta-feira à noite contém novas alegações contra a Meta, incluindo que a empresa fez uma referência cruzada a certos livros pirateados no LibGen com livros protegidos disponíveis para licenciamento. Os advogados alegam que a Meta usou essa tática para determinar se fazia sentido buscar um acordo de licenciamento com uma editora.
A Meta supostamente usou o LibGen para treinar sua mais recente família de modelos Llama, Llama 3, conforme o arquivo alterado. Os autores também alegam que a Meta está usando o conjunto de dados para treinar seus modelos de próxima geração Llama 4.
De acordo com o arquivo alterado, pesquisadores da Meta supostamente tentaram ocultar o fato de que os modelos Llama foram treinados com materiais protegidos por direitos autorais, inserindo “amostras supervisionadas” na afinação do Llama. E a Meta baixou e-books piratas de outra fonte, Z-Library, para treinamento do Llama tão recentemente quanto abril de 2024, alega a queixa alterada.
O Z-Library, ou Z-Lib, tem sido alvo de várias ações legais promovidas por editoras, incluindo apreensões de domínios e remoções. Em 2022, os cidadãos russos que supostamente mantinham o site foram acusados de infração de direitos autorais, fraude eletrônica e lavanderia de dinheiro.
Conteúdo relacionado
Grok 3 Parece Ter Censurado Brevemente Menções Desfavoráveis a Trump e Musk
[the_ad id="145565"] Quando o bilionário Elon Musk apresentou o Grok 3, o mais recente modelo de destaque de sua empresa de IA xAI, em uma transmissão ao vivo na última…
Este chatbot de saúde mental pretende suprir a demanda por aconselhamento em escolas com falta de pessoal.
[the_ad id="145565"] À medida que os distritos escolares enfrentam dificuldades para apoiar a saúde mental de seus alunos, uma startup chamada Sonar Mental Health desenvolveu…
Como a IA está Transformando o Jornalismo: A Abordagem do New York Times com o Echo
[the_ad id="145565"] A Inteligência Artificial (IA) está transformando a forma como as notícias são pesquisadas, escritas e entregues. Um relatório de 2023 da JournalismAI, uma…