Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente ter copiado seus trabalhos para treinar seus modelos de IA sem permissão, afirmam que engenheiros da OpenAI acidentalmente deletaram dados que poderiam ser relevantes para o caso.
No início deste outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem buscar seus conteúdos protegidos por direitos autorais em seus conjuntos de dados de treinamento de IA. (Máquinas virtuais são computadores baseados em software que existem dentro do sistema operacional de outro computador, frequentemente usadas para fins de teste, backup de dados e execução de aplicativos.) Em uma carta, os advogados dos publicadores afirmam que eles e especialistas passaram mais de 150 horas desde 1º de novembro pesquisando os dados de treinamento da OpenAI.
No entanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca dos publicadores armazenados em uma das máquinas virtuais, de acordo com a carta mencionada, que foi apresentada no Tribunal Distrital dos EUA para o Sul de Nova Iorque na quarta-feira à noite.
A OpenAI tentou recuperar os dados — e teve sucesso na maior parte. No entanto, como a estrutura de pastas e os nomes dos arquivos foram “irrecuperavelmente” perdidos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos demandantes de notícias foram utilizados para construir os modelos da [OpenAI]”, segundo a carta.
“Os demandantes de notícias foram forçados a recriar seu trabalho do zero, utilizando um número significativo de horas de trabalho e tempo de processamento de computador”, escreveram os advogados do The Times e Daily News. “Os demandantes de notícias souberam apenas ontem que os dados recuperados são inutilizáveis e que uma semana inteira de trabalho de seus especialistas e advogados deve ser refeita, razão pela qual esta carta suplementar está sendo apresentada hoje.”
Os advogados dos demandantes deixam claro que não têm motivo para acreditar que a exclusão foi intencional. Mas eles afirmam que o incidente enfatiza que a OpenAI “está na melhor posição para pesquisar seus próprios conjuntos de dados” em busca de conteúdo potencialmente infrator usando suas próprias ferramentas.
Entramos em contato com a OpenAI para um comentário e atualizaremos este texto se recebermos retorno.
Neste caso e em outros, a OpenAI tem mantido que treinar modelos usando dados disponíveis publicamente — incluindo artigos do The Times e do Daily News — é uso justo. Em outras palavras, ao criar modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de ebooks, ensaios e mais para gerar textos que soam humanos, a OpenAI acredita que não é obrigada a licenciar ou pagar pelos exemplos — mesmo que ganhe dinheiro com esses modelos.
Dito isso, a OpenAI firmou contratos de licenciamento com um número crescente de novos publicadores, incluindo Associated Press, o proprietário da Business Insider, Axel Springer, Financial Times, a empresa mãe da People, Dotdash Meredith, e News Corp. A OpenAI se recusou a tornar públicos os termos desses acordos, mas um parceiro de conteúdo, a Dotdash, está supostamente recebendo pelo menos US$ 16 milhões por ano.
A OpenAI não confirmou nem negou que treinou seus modelos com obras protegidas por direitos autorais específicas sem permissão.
Conteúdo relacionado
Esta Semana em IA: Comissão do Congresso alerta sobre AGI da China
[the_ad id="145565"] Oi, pessoal, bem-vindos ao boletim informativo regular de IA da TechCrunch. Se você deseja recebê-lo em sua caixa de entrada todas as quartas-feiras,…
O Messenger ganha chamadas de vídeo em HD, fundos de IA e muito mais
[the_ad id="145565"] A Meta está apresentando novos recursos para o Messenger, seu aplicativo de mensagens, incluindo a supressão de ruído alimentada por IA. O Messenger agora…
Benchmark investe R$ 19 milhões na New Lantern, uma forma mais inteligente de os radiologistas utilizarem a IA.
[the_ad id="145565"] Shiva Suri ganhou uma perspectiva única sobre o trabalho dos radiologistas quando se isolou e compartilhou um escritório em casa com sua mãe, uma…