Elon Musk concorda que já esgotamos os dados de treinamento de IA.

Elon Musk concorda com outros especialistas em IA que há poucos dados do mundo real restantes para treinar modelos de IA.

“Basicamente, já esgotamos a soma cumulativa do conhecimento humano… na formação de IA,” disse Musk durante uma conversa ao vivo com o presidente da Stagwell, Mark Penn, na plataforma X na noite de quarta-feira. “Isso aconteceu basicamente no ano passado.”

Musk, que possui a empresa de IA xAI, ecoou temas que o ex-cientista-chefe da OpenAI, Ilya Sutskever, abordou na NeurIPS, a conferência de aprendizado de máquina, durante um discurso em dezembro. Sutskever afirmou que a indústria de IA havia atingido o que ele chamou de “pico de dados” e previu que a falta de dados de treinamento forçará uma mudança na forma como os modelos são desenvolvidos atualmente.

De fato, Musk sugeriu que dados sintéticos — dados gerados pelos próprios modelos de IA — são o caminho a seguir. “A única maneira de suplementar [dados do mundo real] é com dados sintéticos, onde a IA cria [dados de treinamento],” disse ele. “Com dados sintéticos… [a IA] irá, de certa forma, autoavaliar-se e passar por esse processo de autoaprendizado.”

Outras empresas, incluindo gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic, já estão usando dados sintéticos para treinar modelos de IA principais. A Gartner estima que 60% dos dados utilizados para projetos de IA e analytics em 2024 serão gerados sinteticamente.

O Phi-4 da Microsoft, que foi aberto como código na quarta-feira, foi treinado com dados sintéticos juntamente com dados do mundo real. Assim como os modelos Gemma do Google. A Anthropic utilizou alguns dados sintéticos para desenvolver um de seus sistemas mais performáticos, o Claude 3.5 Sonnet. E a Meta aprimorou sua mais recente série de modelos Llama usando dados gerados por IA.

O treinamento com dados sintéticos também tem outras vantagens, como a economia de custos. A startup de IA Writer afirma que seu modelo Palmyra X 004, que foi desenvolvido quase inteiramente com fontes sintéticas, custou apenas $700.000 para ser desenvolvido — comparado a estimativas de $4,6 milhões para um modelo da OpenAI de tamanho comparável.

Mas também existem desvantagens. Algumas pesquisas sugerem que dados sintéticos podem levar ao colapso do modelo, onde um modelo se torna menos “criativo” — e mais tendencioso — em suas saídas, comprometendo seriamente sua funcionalidade. Como os modelos criam dados sintéticos, se os dados usados para treinar esses modelos tiverem viés e limitações, suas saídas também estarão igualmente contaminadas.