OpenAI apagou acidentalmente evidências potenciais no processo de copyright do NY Times (atualizado)

Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente coletar seus trabalhos para treinar seus modelos de IA sem permissão, afirmam que engenheiros da OpenAI acidentalmente deletaram dados que poderiam ser relevantes para o caso.

No início deste outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem realizar buscas por seu conteúdo protegido por direitos autorais em seus conjuntos de dados de treinamento de IA. (Máquinas virtuais são computadores baseados em software que existem dentro do sistema operacional de outro computador, frequentemente utilizadas para fins de teste, backup de dados e execução de aplicativos.) Em uma carta, os advogados dos editores afirmam que eles e especialistas contratados gastaram mais de 150 horas desde 1º de novembro pesquisando os dados de treinamento da OpenAI.

No entanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca dos editores armazenados em uma das máquinas virtuais, de acordo com a carta mencionada, que foi apresentada no Tribunal Distrital dos EUA para o Sul de Nova York na última quarta-feira.

A OpenAI tentou recuperar os dados — e teve um sucesso em grande parte. No entanto, devido à perda “irreparável” da estrutura de pastas e nomes de arquivos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos demandantes de notícias foram utilizados para construir os modelos da [OpenAI]”, segundo a carta.

“Os demandantes de notícias foram forçados a recriar seu trabalho do zero, utilizando um número significativo de horas de trabalho humano e tempo de processamento computacional,” escreveram os advogados do The Times e do Daily News. “Os demandantes de notícias souberam apenas ontem que os dados recuperados são inutilizáveis e que uma semana inteira de trabalho de seus especialistas e advogados deve ser refeita, que é por isso que esta carta suplementar está sendo apresentada hoje.”

Os advogados dos demandantes deixam claro que não têm motivos para acreditar que a exclusão foi intencional. Contudo, afirmam que o incidente enfatiza que a OpenAI “está na melhor posição para pesquisar seus próprios conjuntos de dados” em busca de conteúdos potencialmente infratores utilizando suas próprias ferramentas.

Um porta-voz da OpenAI se recusou a fornecer uma declaração.

Mas, na sexta-feira à noite, 22 de novembro, o advogado da OpenAI apresentou uma resposta à carta enviada pelos advogados do The Times e do Daily News na quarta-feira. Em sua resposta, os advogados da OpenAI negaram categoricamente que a OpenAI tenha deletado qualquer evidência e, em vez disso, sugeriram que os demandantes eram os culpados por uma configuração de sistema incorreta que levou a um problema técnico.

“Os demandantes solicitaram uma alteração de configuração em uma das várias máquinas que a OpenAI forneceu para buscar conjuntos de dados de treinamento,” escreveram os advogados da OpenAI. “A implementação da alteração solicitada pelos demandantes, no entanto, resultou na remoção da estrutura de pastas e alguns nomes de arquivos em um disco rígido — um disco que deveria ser utilizado como um cache temporário … De qualquer forma, não há razão para pensar que quaisquer arquivos foram realmente perdidos.”

Neste caso e em outros, a OpenAI sustentou que treinar modelos usando dados disponíveis publicamente — incluindo artigos do The Times e do Daily News — é um uso justo. Em outras palavras, na criação de modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de e-books, ensaios e mais para gerar texto semelhante ao humano, a OpenAI acredita que não é obrigada a licenciar ou pagar pelos exemplos — mesmo que lucre com esses modelos.

Dito isso, a OpenAI firmou acordos de licenciamento com um número crescente de novos editores, incluindo a Associated Press, o proprietário da Business Insider Axel Springer, o Financial Times, a empresa-mãe do People, a Dotdash Meredith, e a News Corp. A OpenAI se recusou a divulgar os termos desses acordos, mas um parceiro de conteúdo, a Dotdash, está supostamente recebendo pelo menos US$ 16 milhões por ano.

A OpenAI não confirmou nem negou que tenha treinado seus sistemas de IA em obras específicas protegidas por direitos autorais sem permissão.

Atualização: Adicionada a resposta da OpenAI às alegações.