Bolt42

A Reddit está se tornando uma empresa de capital aberto. E, como parte do seu processo de IPO, a empresa revelou que possui acordos de licenciamento de dados com empresas de IA.

Os acordos, que somam mais de $200 milhões, presumivelmente oferecem a esses modelos de IA a capacidade de treinar legalmente com os dados do Reddit.

A Reddit não revelou todas as empresas de IA envolvidas. Mas o Reuters descobriu que um dos acordos é com o Google, no valor de $60 milhões por ano.

O que está acontecendo aqui?

Eu obtive as respostas no episódio 85 do The Artificial Intelligence Show com o fundador/CEO do Marketing AI Institute, Paul Roetzer.

O futuro dos modelos de IA é dados licenciados e sintéticos

“Isso vai valer muito dinheiro,” diz Roetzer. “O futuro desses modelos será de dados licenciados e sintéticos.”

Os modelos de IA mais poderosos aprendem ao consumir enormes quantidades de informações. Como eles conseguem essas informações é a fonte de controvérsia. (Algumas empresas, como a OpenAI, estão sendo processadas por seu uso de material protegido por direitos autorais.)

No entanto, ao treinar com conteúdo licenciado ou com conteúdo gerado por IA, as empresas de IA evitam problemas legais e obtêm conjuntos de dados exclusivos que lhes conferem uma vantagem sobre outros modelos. Isso faz com que conjuntos de dados proprietários como os do Reddit sejam extremamente valiosos para empresas de IA.

Empresas com dados proprietários estão sentadas em uma mina de ouro

O acesso a dados únicos é como os modelos de IA permanecem competitivos, diz Roetzer. Portanto, não é surpresa que Google e outras empresas estejam firmando esse tipo de acordo.

Isso também explica por que Elon Musk desativou o acesso à API do X, anteriormente conhecido como Twitter. Agora, apenas seu modelo de IA, Grok, pode treinar com esses dados.

Isso provavelmente impacta empresas de mídia e sites online com dados proprietários, diz Roetzer. Porque esses dados representam uma mina de ouro para empresas de IA.

“Se você tem um monte de dados proprietários, o licenciamento de dados será enorme daqui para frente.”



Bolt42