Bolt42

Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente ter copiado seus trabalhos para treinar seus modelos de IA sem permissão, afirmam que engenheiros da OpenAI acidentalmente deletaram dados que poderiam ser relevantes para o caso.

No início deste outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem buscar seus conteúdos protegidos por direitos autorais em seus conjuntos de dados de treinamento de IA. (Máquinas virtuais são computadores baseados em software que existem dentro do sistema operacional de outro computador, frequentemente usadas para fins de teste, backup de dados e execução de aplicativos.) Em uma carta, os advogados dos publicadores afirmam que eles e especialistas passaram mais de 150 horas desde 1º de novembro pesquisando os dados de treinamento da OpenAI.

No entanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca dos publicadores armazenados em uma das máquinas virtuais, de acordo com a carta mencionada, que foi apresentada no Tribunal Distrital dos EUA para o Sul de Nova Iorque na quarta-feira à noite.

A OpenAI tentou recuperar os dados — e teve sucesso na maior parte. No entanto, como a estrutura de pastas e os nomes dos arquivos foram “irrecuperavelmente” perdidos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos demandantes de notícias foram utilizados para construir os modelos da [OpenAI]”, segundo a carta.

“Os demandantes de notícias foram forçados a recriar seu trabalho do zero, utilizando um número significativo de horas de trabalho e tempo de processamento de computador”, escreveram os advogados do The Times e Daily News. “Os demandantes de notícias souberam apenas ontem que os dados recuperados são inutilizáveis e que uma semana inteira de trabalho de seus especialistas e advogados deve ser refeita, razão pela qual esta carta suplementar está sendo apresentada hoje.”

Os advogados dos demandantes deixam claro que não têm motivo para acreditar que a exclusão foi intencional. Mas eles afirmam que o incidente enfatiza que a OpenAI “está na melhor posição para pesquisar seus próprios conjuntos de dados” em busca de conteúdo potencialmente infrator usando suas próprias ferramentas.

Entramos em contato com a OpenAI para um comentário e atualizaremos este texto se recebermos retorno.

Neste caso e em outros, a OpenAI tem mantido que treinar modelos usando dados disponíveis publicamente — incluindo artigos do The Times e do Daily News — é uso justo. Em outras palavras, ao criar modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de ebooks, ensaios e mais para gerar textos que soam humanos, a OpenAI acredita que não é obrigada a licenciar ou pagar pelos exemplos — mesmo que ganhe dinheiro com esses modelos.

Dito isso, a OpenAI firmou contratos de licenciamento com um número crescente de novos publicadores, incluindo Associated Press, o proprietário da Business Insider, Axel Springer, Financial Times, a empresa mãe da People, Dotdash Meredith, e News Corp. A OpenAI se recusou a tornar públicos os termos desses acordos, mas um parceiro de conteúdo, a Dotdash, está supostamente recebendo pelo menos US$ 16 milhões por ano.

A OpenAI não confirmou nem negou que treinou seus modelos com obras protegidas por direitos autorais específicas sem permissão.


    nineteen − six =

    Bolt42