O New York Times processou a OpenAI e a Microsoft por violação de direitos autorais. É uma batalha legal histórica que terá enormes implicações para a IA e a mídia no futuro.
A ação judicial alega que as duas empresas treinaram sua IA com milhões de artigos protegidos por direitos autorais. Embora a ação não especifique danos específicos, é afirmado que ambas deveriam pagar “bilhões”. Também pede que destruam os modelos e os dados de treinamento que utilizaram material protegido.
“Eu acho que esta é uma questão realmente importante,” afirma Paul Roetzer, fundador e CEO do Marketing AI Institute.
No episódio 78 do The Marketing AI Show, ele explicou para mim o que está acontecendo e por que isso tudo é relevante.
Por que o New York Times está processando a OpenAI?
Isso é importante por algumas razões, diz Roetzer.
Primeiro, é o New York Times que está movendo a ação. Em segundo lugar, o caso parece ser muito bem fundamentado.
Para entender o porquê, é útil dar um passo para trás e compreender por que isso está acontecendo — e o que está em jogo.
Todos os modelos de IA são treinados com dados. Por exemplo, o ChatGPT é alimentado pelo GPT-4, um modelo de IA que é treinado com dados. É assim que ele pode responder a perguntas, escrever artigos, redigir e-mails, etc. Ele possui uma quantidade imensa de dados dos quais aprendeu.
Quanto maior a qualidade dos dados, melhor o modelo consegue se desempenhar. Assim, se você deseja que um modelo como o GPT-4 escreva bem, você quer que ele aprenda com o melhor conteúdo escrito disponível. Portanto, você quer que ele seja treinado com os melhores exemplos de escrita e a maior profundidade de conhecimento possível.
Para isso, você precisa de fontes legítimas, não de comentários aleatórios do Reddit ou de discussões no X.
Empresas como Google, Meta, Amazon e algumas outras já têm dados de qualidade para treinar seus modelos. Esses dados vêm de suas redes proprietárias de busca, social e e-commerce.
No entanto, empresas como a OpenAI não possuem seus próprios dados para treinar seus modelos. Elas precisam treinar seus modelos com dados de terceiros.
Daí vem o processo. O Times alega que a OpenAI não tinha permissão ou direitos legais para treinar o GPT-4 com seus dados.
E a simples situação de dados ou falta de dados descrita acima significa que as empresas de IA estavam cientes disso.
“Essas empresas de IA certamente sabiam, desde o início, que era uma área cinza que provavelmente seria desafiada legalmente,” diz Roetzer.
Quão forte é a ação judicial do New York Times?
Parece que o Times tem um caso sólido.
Agora, não somos advogados. Mas pessoas muito inteligentes como Cecelia Ziniti são. Ela se especializa em direito tecnológico e foi conselheira geral em uma grande empresa de IA, a Replit. E ela apresentou alguns pontos importantes em um recentíssimo thread no X.
Primeiro, ela afirma que a ação é muito clara em sua alegação de violação de direitos autorais. A OpenAI usou um repositório de sites rastreados chamado Common Crawl para treinar o GPT-4. A ação judicial mostra que o Times é o maior conjunto de dados proprietário no Common Crawl. (Está atrás apenas da Wikipedia e de uma base de dados de documentos de patentes dos EUA.)
1/ Primeiro, a reclamação descreve claramente a alegação de violação de direitos autorais, destacando o ‘acesso & similaridade substancial’ entre os artigos do NYT e as saídas do ChatGPT. Fato-chave: o NYT é o único maior conjunto de dados proprietários no Common Crawl usado para treinar o GPT. pic.twitter.com/eHO97fstut
— Cecilia Ziniti (@CeciliaZin) 27 de dezembro de 2023
Segundo, ela afirma que a ação deixa muito claro que o GPT-4 está plagiando o conteúdo do The Times. Compara saídas do GPT-4 com o conteúdo do Times lado a lado. E é claro que o conteúdo foi retirado diretamente da publicação.
2/ A evidência visual de cópia na queixa é clara. Texto copiado em vermelho, novas palavras do GPT em preto — um contraste projetado para convencer um júri. Veja o Anexo J aqui.
Minha opinião? A OpenAI realmente não pode se defender dessa prática sem algumas mudanças pesadas nas instruções e uma boa dose de… pic.twitter.com/c15glvBNqd
— Cecilia Ziniti (@CeciliaZin) 27 de dezembro de 2023
O que isso significa para empresas de IA e mídia?
Isso não é apenas relevante para a ação judicial. Também tem implicações maiores em toda a indústria.
Não se trata apenas de conteúdo utilizado ilegalmente do The Times. O Common Crawl também utiliza conteúdo de outras publicações. Isso inclui conteúdo do The Washington Post, Forbes, The Huffington Post, entre outros.
“Se você começar a descer essa lista, perceberá que estamos apenas falando da ponta do iceberg aqui,” diz Roetzer. “Porque se o New York Times tem um caso, então o Washington Post, Forbes, Huffington Post, todos eles têm os mesmos potenciais problemas. Portanto, isso representa um grande problema.”
O que vai acontecer a seguir?
Neste momento, não está claro como isso será resolvido. Mas Roetzer vê alguns possíveis caminhos à frente.
Um é que as empresas de IA façam um acordo. Elas pagam alguns bilhões para resolver as ações judiciais sem admitir culpa. Então, elas passam a depender de dados próprios, licenciados ou sintéticos para treinar todos os futuros modelos.
“Elas simplesmente vão contornar isso dizendo ‘não vamos treinar mais com o que estamos roubando das pessoas,’” diz Roetzer.
Outro é que as empresas de IA comprem ou construam suas próprias empresas de mídia para treinar modelos futuros. Dessa forma, controlam os dados de origem e colhem os benefícios de possuir narrativas midiáticas.
Alguns exemplos:
Jeff Bezos possui o Washington Post. Marc Benioff, da Salesforce, possui a Time Magazine. Elon Musk comprou o Twitter, agora X, em parte por seus dados. Todos esses têm arquivos de conteúdo proprietário que poderiam ser utilizados para treinar futuros modelos de IA.
Mesmo que custe uma fortuna adquirir essas publicações, pode fazer mais sentido a longo prazo, diz Roetzer.
“A OpenAI e outros podem pagar milhões ou bilhões em taxas de licenciamento e basicamente alugar os dados. Ou podem simplesmente comprar publicações de mídia por menos e descartar um modelo de publicidade que mal sustenta o jornalismo como é.”
Se isso acontecer, o resultado pode ser completamente irônico, diz ele.
“O jornalismo está morrendo. Você não pode financiar o jornalismo local por meio de modelos de anúncio. E então, neste grande e irônico giro, há uma chance de que a IA realmente salve o jornalismo ao invés de roubar dele.”
Claro, isso também pode seguir uma direção negativa, alerta Roetzer. Empresas de IA que possuem meios de comunicação poderiam, então, controlar o que vemos como verdade e registro público.
Uma coisa é certa, porém:
Não importa qual caminho isso tome…
Os advogados da OpenAI estarão ocupados no futuro próximo.
Conteúdo relacionado
40% das Compras Pmax de uma Marca de E-commerce Foram Exibidas em Sites MFA Criados por IA e Domínios Inativos
[the_ad id="145565"] A crescente presença de sites gerados por inteligência artificial voltados para a publicidade está dificultando a tarefa dos anunciantes em garantir que…
Como o Anúncio de Fim de Ano da Coca-Cola com IA Passou de Elogios a Raiva
[the_ad id="145565"] Inicialmente, o remake da Coca-Cola de seu comercial de 1995, “As Férias Estão Chegando,” alimentado por IA, parecia ser bem recebido. A System1, que testa…
Dentro da Estratégia de Dados Focada no Cliente de Chris Marino no Google
[the_ad id="145565"] No episódio deste podcast The Speed of Culture, o fundador e apresentador da Suzy, Matt Britton, conversa com Chris Marino, chefe de agência da Google…