Bolt42

A OpenAI foi acusada por vários grupos de treinar sua IA com conteúdo protegido por direitos autorais sem permissão. Agora, um novo artigo de uma organização de vigilância da IA faz a séria acusação de que a empresa confiou cada vez mais em livros não públicos que não foram licenciados para treinar modelos de IA mais sofisticados.

Os modelos de IA são essencialmente motores de previsão complexos. Treinados com uma vasta quantidade de dados — livros, filmes, programas de TV, e assim por diante — eles aprendem padrões e maneiras novas de extrapolar a partir de um simples comando. Quando um modelo “escreve” um ensaio sobre uma tragédia grega ou “desenha” imagens no estilo Ghibli, está simplesmente se baseando em seu vasto conhecimento para fazer aproximações. Não está criando nada de novo.

Embora vários laboratórios de IA, incluindo a OpenAI, tenham começado a adotar dados gerados por IA para treinar suas IAs após esgotarem as fontes do mundo real (principalmente da web pública), poucos abandonaram completamente os dados do mundo real. Isso se deve ao fato de que o treinamento com dados puramente sintéticos apresenta riscos, como a piora no desempenho de um modelo.

O novo artigo, proveniente do AI Disclosures Project, uma organização sem fins lucrativos co-fundada em 2024 pelo magnata da mídia Tim O’Reilly e pelo economista Ilan Strauss, chega à conclusão de que a OpenAI provavelmente treinou seu modelo GPT-4o com livros pagos da O’Reilly Media. (O’Reilly é o CEO da O’Reilly Media.)

No ChatGPT, o GPT-4o é o modelo padrão. Segundo o artigo, O’Reilly não possui um contrato de licenciamento com a OpenAI.

“GPT-4o, o modelo mais recente e mais capaz da OpenAI, demonstra forte reconhecimento do conteúdo de livros O’Reilly com paywall… em comparação com o modelo anterior da OpenAI, GPT-3.5 Turbo,” escreveram os co-autores do artigo. “Em contrapartida, o GPT-3.5 Turbo mostra maior reconhecimento relativo de amostras de livros O’Reilly acessíveis ao público.”

O artigo utilizou um método chamado DE-COP, introduzido pela primeira vez em um artigo acadêmico em 2024, projetado para detectar conteúdo protegido por direitos autorais nos dados de treinamento de modelos de linguagem. Também conhecido como um “ataque de inferência de membro,” o método testa se um modelo consegue distinguir de forma confiável textos escritos por humanos de versões parafraseadas, geradas por IA, do mesmo texto. Se consegue, isso sugere que o modelo pode ter conhecimento prévio do texto a partir de seus dados de treinamento.

Os co-autores do artigo — O’Reilly, Strauss e o pesquisador de IA Sruly Rosenblat — afirmam que pesquisaram o conhecimento do GPT-4o, GPT-3.5 Turbo e outros modelos da OpenAI sobre livros da O’Reilly Media publicados antes e depois de suas datas de corte de treinamento. Eles usaram 13.962 trechos de parágrafos de 34 livros da O’Reilly para estimar a probabilidade de que um determinado trecho tivesse sido incluído no conjunto de dados de treinamento de um modelo.

De acordo com os resultados do artigo, o GPT-4o “reconheceu” muito mais conteúdo de livros O’Reilly com paywall do que os modelos mais antigos da OpenAI, incluindo o GPT-3.5 Turbo. Isso se mantém mesmo após levar em conta possíveis fatores confundidores, afirmaram os autores, como as melhorias na capacidade dos modelos mais novos de determinar se o texto era escrito por humanos.

“O GPT-4o [provavelmente] reconhece, e portanto tem conhecimento prévio, de muitos livros não públicos da O’Reilly publicados antes da data de corte de seu treinamento,” escreveram os co-autores.

Não se trata de uma evidência irrefutável, os co-autores cuidam de notar. Eles reconhecem que seu método experimental não é à prova de falhas e que a OpenAI pode ter coletado os trechos dos livros com paywall de usuários que copiaram e colaram no ChatGPT.

Para complicar ainda mais as coisas, os co-autores não avaliaram a coleção mais recente de modelos da OpenAI, que inclui o GPT-4.5 e modelos de “raciocínio,” como o o3-mini e o o1. É possível que esses modelos não tenham sido treinados com dados de livros O’Reilly pagos ou que tenham sido treinados com uma quantidade menor do que o GPT-4o.

Dito isso, não é segredo que a OpenAI, que tem defendido a flexibilização das restrições em torno do desenvolvimento de modelos utilizando dados protegidos por direitos autorais, tem buscado dados de treinamento de maior qualidade há algum tempo. A empresa chegou ao ponto de contratar jornalistas para ajudar a refinar os resultados de seus modelos. Essa é uma tendência em toda a indústria: empresas de IA recrutando especialistas em áreas como ciência e física para efetivamente alimentarem seu conhecimento em sistemas de IA.

Deve ser notado que a OpenAI paga por pelo menos alguns de seus dados de treinamento. A empresa tem contratos de licenciamento com editores de notícias, redes sociais, bibliotecas de mídia de estoque e outros. A OpenAI também oferece mecanismos de opt-out — mesmo que imperfeitos — que permitem que os proprietários de direitos autorais sinalizem conteúdo que prefeririam que a empresa não utilizasse para fins de treinamento.

Ainda assim, enquanto a OpenAI enfrenta várias ações judiciais sobre suas práticas de dados de treinamento e tratamento da lei de direitos autorais nos tribunais dos EUA, o artigo da O’Reilly não apresenta uma imagem muito favorável.

A OpenAI não respondeu a um pedido de comentário.


    5 + três =

    Bolt42