Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente ter copiado seus trabalhos para treinar seus modelos de IA sem permissão, afirmam que engenheiros da OpenAI acidentalmente deletaram dados que poderiam ser relevantes para o caso.
No início deste outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem buscar seus conteúdos protegidos por direitos autorais em seus conjuntos de dados de treinamento de IA. (Máquinas virtuais são computadores baseados em software que existem dentro do sistema operacional de outro computador, frequentemente usadas para fins de teste, backup de dados e execução de aplicativos.) Em uma carta, os advogados dos publicadores afirmam que eles e especialistas passaram mais de 150 horas desde 1º de novembro pesquisando os dados de treinamento da OpenAI.
No entanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca dos publicadores armazenados em uma das máquinas virtuais, de acordo com a carta mencionada, que foi apresentada no Tribunal Distrital dos EUA para o Sul de Nova Iorque na quarta-feira à noite.
A OpenAI tentou recuperar os dados — e teve sucesso na maior parte. No entanto, como a estrutura de pastas e os nomes dos arquivos foram “irrecuperavelmente” perdidos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos demandantes de notícias foram utilizados para construir os modelos da [OpenAI]”, segundo a carta.
“Os demandantes de notícias foram forçados a recriar seu trabalho do zero, utilizando um número significativo de horas de trabalho e tempo de processamento de computador”, escreveram os advogados do The Times e Daily News. “Os demandantes de notícias souberam apenas ontem que os dados recuperados são inutilizáveis e que uma semana inteira de trabalho de seus especialistas e advogados deve ser refeita, razão pela qual esta carta suplementar está sendo apresentada hoje.”
Os advogados dos demandantes deixam claro que não têm motivo para acreditar que a exclusão foi intencional. Mas eles afirmam que o incidente enfatiza que a OpenAI “está na melhor posição para pesquisar seus próprios conjuntos de dados” em busca de conteúdo potencialmente infrator usando suas próprias ferramentas.
Entramos em contato com a OpenAI para um comentário e atualizaremos este texto se recebermos retorno.
Neste caso e em outros, a OpenAI tem mantido que treinar modelos usando dados disponíveis publicamente — incluindo artigos do The Times e do Daily News — é uso justo. Em outras palavras, ao criar modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de ebooks, ensaios e mais para gerar textos que soam humanos, a OpenAI acredita que não é obrigada a licenciar ou pagar pelos exemplos — mesmo que ganhe dinheiro com esses modelos.
Dito isso, a OpenAI firmou contratos de licenciamento com um número crescente de novos publicadores, incluindo Associated Press, o proprietário da Business Insider, Axel Springer, Financial Times, a empresa mãe da People, Dotdash Meredith, e News Corp. A OpenAI se recusou a tornar públicos os termos desses acordos, mas um parceiro de conteúdo, a Dotdash, está supostamente recebendo pelo menos US$ 16 milhões por ano.
A OpenAI não confirmou nem negou que treinou seus modelos com obras protegidas por direitos autorais específicas sem permissão.
Conteúdo relacionado
Tudo o que você precisa saber sobre a Amazon Nova Act: o novo SDK de agente de IA que desafia OpenAI, Microsoft e Salesforce.
[the_ad id="145565"] Inscreva-se em nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder no setor. Saiba Mais…
A Microsoft supostamente reduz seus planos de data center
[the_ad id="145565"] A Microsoft reduziu seus projetos de data centers ao redor do mundo, segundo a Bloomberg, sugerindo que a empresa está cautelosa em expandir sua…
Runway, conhecida por seus modelos de IA para geração de vídeo, arrecada R$ 308 milhões.
[the_ad id="145565"] Runway, uma startup que desenvolve uma variedade de modelos de IA generativa para a produção de mídia, incluindo modelos de geração de vídeo, levantou US$…