Elon Musk concorda com outros especialistas em IA que há poucos dados do mundo real restantes para treinar modelos de IA.
“Basicamente, já esgotamos a soma cumulativa do conhecimento humano… na formação de IA,” disse Musk durante uma conversa ao vivo com o presidente da Stagwell, Mark Penn, na plataforma X na noite de quarta-feira. “Isso aconteceu basicamente no ano passado.”
Musk, que possui a empresa de IA xAI, ecoou temas que o ex-cientista-chefe da OpenAI, Ilya Sutskever, abordou na NeurIPS, a conferência de aprendizado de máquina, durante um discurso em dezembro. Sutskever afirmou que a indústria de IA havia atingido o que ele chamou de “pico de dados” e previu que a falta de dados de treinamento forçará uma mudança na forma como os modelos são desenvolvidos atualmente.
De fato, Musk sugeriu que dados sintéticos — dados gerados pelos próprios modelos de IA — são o caminho a seguir. “A única maneira de suplementar [dados do mundo real] é com dados sintéticos, onde a IA cria [dados de treinamento],” disse ele. “Com dados sintéticos… [a IA] irá, de certa forma, autoavaliar-se e passar por esse processo de autoaprendizado.”
Outras empresas, incluindo gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic, já estão usando dados sintéticos para treinar modelos de IA principais. A Gartner estima que 60% dos dados utilizados para projetos de IA e analytics em 2024 serão gerados sinteticamente.
O Phi-4 da Microsoft, que foi aberto como código na quarta-feira, foi treinado com dados sintéticos juntamente com dados do mundo real. Assim como os modelos Gemma do Google. A Anthropic utilizou alguns dados sintéticos para desenvolver um de seus sistemas mais performáticos, o Claude 3.5 Sonnet. E a Meta aprimorou sua mais recente série de modelos Llama usando dados gerados por IA.
O treinamento com dados sintéticos também tem outras vantagens, como a economia de custos. A startup de IA Writer afirma que seu modelo Palmyra X 004, que foi desenvolvido quase inteiramente com fontes sintéticas, custou apenas $700.000 para ser desenvolvido — comparado a estimativas de $4,6 milhões para um modelo da OpenAI de tamanho comparável.
Mas também existem desvantagens. Algumas pesquisas sugerem que dados sintéticos podem levar ao colapso do modelo, onde um modelo se torna menos “criativo” — e mais tendencioso — em suas saídas, comprometendo seriamente sua funcionalidade. Como os modelos criam dados sintéticos, se os dados usados para treinar esses modelos tiverem viés e limitações, suas saídas também estarão igualmente contaminadas.
Conteúdo relacionado
Será que o Duolingo é o rosto de uma crise de empregos em IA?
O Duolingo anunciou esta semana planos para substituir contratados por IA e se tornar uma empresa "prioritária em IA" — um movimento que o jornalista Brian…
OpenAI ignorou preocupações de especialistas para lançar o GPT-4o bajulador.
Participe de nossas newsletters diárias e semanais para obter as últimas atualizações e conteúdo exclusivo sobre cobertura líder da indústria em…
A rede de talentos da Revelo na América Latina tem forte demanda por parte de empresas dos EUA, graças à IA
Embora muitas empresas de tecnologia estejam exigindo que seus funcionários retornem aos escritórios, enfatizando a construção de equipes presenciais,…