Bolt42

Participe dos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder do setor. Saiba Mais


O Tribunal do Distrito Sul de Nova York arquivou uma ação de violação de direitos autorais movida pela Raw Story Media, Inc. e AlterNet Media, Inc., veículos de notícias online alternativos e de viés esquerdista, contra a OpenAI, efetivamente encerrando as alegações de que a empresa de IA generativa violou direitos autorais ao usar conteúdo de notícias raspado em seus dados de treinamento.

Esse arquivamento pode ser visto como um momento importante na batalha contínua sobre direitos autorais e ferramentas de IA—particularmente sob a Seção 1202(b) da Lei dos Direitos Autorais do Milênio Digital (DMCA)—mas vale a pena notar que outros casos também falharam em estabelecer alegações bem-sucedidas sob essa disposição.

Vamos explorar o que aconteceu, por que o juiz arquivou o caso e o que isso significa para o futuro da IA, direitos autorais e a legalidade das empresas de tecnologia em raspar conteúdo da web sem a permissão expressa ou compensação dos criadores.

Entendendo a Seção 1202(b) do DMCA

A ação judicial girou em torno da Seção 1202(b) do DMCA, uma disposição que visa proteger a “informação de gerenciamento de direitos autorais” (CMI).

Isso inclui quaisquer nomes de autores, títulos e outros metadados que identifiquem obras protegidas por direitos autorais. A Seção 1202(b) proíbe a remoção ou alteração de tais informações sem autorização, especialmente se isso facilitar a violação de direitos autorais.

Neste caso, a Raw Story e a AlterNet alegaram que a OpenAI usou artigos de seus sites para treinar o ChatGPT e outros modelos sem preservar a CMI, violando a Seção 1202(b).

A OpenAI não é a única empresa de IA que provavelmente raspou esse tipo de material da web — enquanto os provedores de modelos de IA tendem a proteger com cuidado seus conjuntos de dados de treinamento, a indústria como um todo sem dúvida raspou grandes extensões da web para treinar seus diversos modelos (uma prática semelhante ao que o Google fez para rastrear e indexar resultados de busca em seu produto principal de busca). Dessa forma, alguns criadores veem a raspagem de dados como o “pecado original” da IA.

No caso, os demandantes Raw Story e AlterNet afirmaram que as saídas da IA da OpenAI—respostas geradas pelos modelos—largas vezes se baseavam em seus artigos e que a empresa violou conscientemente os direitos autorais após a remoção da CMI.

Por que o tribunal arquivou as alegações da Raw Story

A Juíza Colleen McMahon concedeu à OpenAI um pedido para arquivar o caso alegando falta de legitimidade. Especificamente, a juíza concluiu que os demandantes não conseguiram demonstrar que sofreram um dano concreto e real das ações da OpenAI — um requisito essencial sob o Artigo III da Constituição dos EUA para que qualquer processo judicial prossiga.

A Juíza McMahon também considerou o cenário evolutivo das interfaces de modelos de linguagem extensa (LLM), observando que as atualizações a esses sistemas complicam ainda mais a atribuição e a rastreabilidade. Ela enfatizou que as melhorias iterativas da IA generativa tornam menos provável que o conteúdo seja reproduzido literalmente, tornando as alegações dos demandantes ainda mais especulativas.

A juíza observou que “a probabilidade de que o ChatGPT produza conteúdo plagiado de um dos artigos dos Demandantes parece remota.” Isso reflete uma dificuldade chave nesses tipos de casos: a IA generativa é projetada para sintetizar informações em vez de replicá-las literalmente. Os demandantes não conseguiram apresentar evidências convincentes de que suas obras específicas foram diretamente infringidas de maneira que levasse a um dano identificável.

A decisão está alinhada com casos similares onde os tribunais tiveram dificuldade em aplicar a lei tradicional de direitos autorais à IA generativa. Por exemplo, o caso Doe 1 v. GitHub, envolvendo o Copilot da Microsoft, também tratou de alegações sob a Seção 1202(b). Nesse caso, o tribunal encontrou que o código gerado pelo Copilot não era uma “cópia idêntica” do original, mas sim trechos que foram reconfigurados, dificultando a prova da violação dos requisitos de CMI.

Uma divisão crescente sobre a Seção 1202(b)

A decisão da Raw Story destaca as incertezas mais amplas que os tribunais estão enfrentando em relação à Seção 1202(b), especialmente com a IA generativa.

Atualmente, não há um consenso firme sobre como a Seção 1202(b) se aplica a uma ampla gama de conteúdo online. Em uma das vertentes, alguns tribunais impuseram o que é chamado de requisito de “identicidade”—o que significa que os demandantes devem provar que as obras infringentes são uma cópia exata do conteúdo original, sem a CMI. Outros, no entanto, permitiram interpretações mais flexíveis.

Por exemplo, o tribunal do Distrito Sul do Texas recentemente rejeitou o requisito de identicidade, afirmando que até mesmo reproduções parciais poderiam qualificar como violações se a CMI fosse deliberadamente removida.

Enquanto isso, na ação movida por Sarah Silverman e um grupo de autores, o tribunal considerou que a demandante não conseguiu apresentar evidências suficientes de que a OpenAI havia removido ativamente a CMI de seu conteúdo. Essa decisão, muito semelhante à da Raw Story, destaca o ônus probatório que os demandantes enfrentam.

Como explicado por Maria Crusey em um artigo para a Authors Alliance, “O aumento nas alegações da §1202(b) levanta questões desafiadoras, nomeadamente: Como a §1202(b) se aplica ao uso de uma obra protegida por direitos autorais como parte de um conjunto de dados que deve ser limpo, reestruturado e processado de maneiras que separem a informação de gerenciamento de direitos autorais do próprio conteúdo?”

Por que essa decisão é importante para a IA e criadores de conteúdo

O arquivamento da ação da Raw Story é mais do que uma vitória para a OpenAI—é um indicativo de como os tribunais podem lidar com alegações semelhantes de direitos autorais no cenário em rápida evolução da IA generativa. Com a OpenAI e seu investidor Microsoft atualmente defendendo-se contra um processo semelhante movido pelo The New York Times, a decisão pode ajudar a estabelecer um precedente para arquivar este e futuros casos.

De fato, a decisão sugere que, sem um dano claro e demonstrável ou reprodução exata, os demandantes podem ter dificuldade em levar seu caso ao tribunal.

A decisão da Juíza McMahon também toca em um ponto mais amplo sobre como a IA sintetiza dados em vez de replicá-los diretamente. O ChatGPT da OpenAI não recorda diretamente artigos da Raw Story—em vez disso, usa dados de treinamento para produzir saídas novas que se assemelham à escrita humana. Isso torna a prova de violações sob as leis de direitos autorais atuais inherentemente difícil.

Para criadores de conteúdo, isso levanta um desafio significativo: como garantir o devido crédito e prevenir o uso não autorizado de seu trabalho em conjuntos de dados de treinamento. Acordos de licenciamento, como os que a OpenAI firmou com grandes publicadores de notícias, como Vogue e Wired da Condé Nast, podem se tornar um novo padrão, dando às empresas uma maneira legal de usar conteúdo protegido por direitos autorais enquanto compensam seus criadores.

Entre um robô e um lugar difícil

Os tribunais ainda estão tentando entender como lidar com a IA generativa, e decisões recentes sugerem que estão relutantes em estender as proteções da Seção 1202(b) a menos que os demandantes demonstrem danos reais e específicos. O conteúdo gerado por IA sintetiza em vez de replicar, tornando difícil provar violações de direitos autorais.

Para os demandantes, isso significa que provar danos é uma batalha difícil. Os tribunais estão sinalizando que alegações vagas não são suficientes—os demandantes precisam de evidências concretas de danos. Para desenvolvedores e empresas de tecnologia, mesmo que as probabilidades pareçam favoráveis, ninguém quer um processo. Transparência, registros de dados e conformidade são essenciais para evitar problemas legais.

A Juíza McMahon observou que o caso poderia ser recontado (“junto com uma explicação de por que a emenda proposta não seria fútil,” escreveu ela), mas obstáculos significativos permanecem.




    18 + three =




    Bolt42