Uma análise da Epoch AI, um instituto de pesquisa em IA sem fins lucrativos, sugere que a indústria de IA pode não conseguir obter grandes ganhos de desempenho em modelos de raciocínio por muito mais tempo. Conforme indicado pelos achados do relatório, os avanços desses modelos podem desacelerar em até um ano.
Modelos de raciocínio, como o o3 da OpenAI, têm proporcionado ganhos significativos em benchmarks de IA nos últimos meses, especialmente aqueles que medem habilidades matemáticas e de programação. Esses modelos podem aplicar mais computação a problemas, o que pode melhorar seu desempenho, mas a desvantagem é que levam mais tempo do que os modelos convencionais para concluir tarefas.
Modelos de raciocínio são desenvolvidos inicialmente treinando um modelo convencional com uma grande quantidade de dados e, em seguida, aplicando uma técnica chamada aprendizado por reforço, que efetivamente fornece ao modelo “feedback” sobre suas soluções para problemas difíceis.
Até agora, laboratórios de IA de ponta, como a OpenAI, não aplicaram uma quantidade enorme de poder computacional na fase de aprendizado por reforço do treinamento de modelos de raciocínio, de acordo com a Epoch.
Isso está mudando. A OpenAI informou que aplicou cerca de 10 vezes mais computação para treinar o o3 do que seu predecessor, o o1, e a Epoch especula que a maior parte dessa computação foi destinada ao aprendizado por reforço. E o pesquisador da OpenAI, Dan Roberts, revelou recentemente que os planos futuros da empresa preveem priorizar o aprendizado por reforço para utilizar muito mais poder computacional, até mais do que para o treinamento inicial do modelo.
No entanto, ainda existe um limite superior para a quantidade de computação que pode ser aplicada ao aprendizado por reforço, segundo a Epoch.

Josh You, um analista da Epoch e autor da análise, explica que os ganhos de desempenho do treinamento de modelos de IA padrão estão atualmente quadruplicando a cada ano, enquanto os ganhos de desempenho do aprendizado por reforço estão crescendo dez vezes a cada 3-5 meses. O progresso do treinamento de raciocínio “provavelmente convergirá com o avanço geral até 2026”, continua ele.
A análise da Epoch faz várias suposições e se baseia em parte em comentários públicos de executivos de empresas de IA. Mas também argumenta que escalar modelos de raciocínio pode ser desafiador por razões além da computação, incluindo altos custos indiretos de pesquisa.
“Se houver um custo indireto persistente exigido para pesquisa, os modelos de raciocínio podem não escalar tanto quanto o esperado”, escreve You. “A rápida escalabilidade da computação é potencialmente um ingrediente muito importante no progresso dos modelos de raciocínio, por isso vale a pena acompanhar isso de perto.”
Qualquer indicação de que os modelos de raciocínio possam atingir algum tipo de limite em um futuro próximo provavelmente preocupará a indústria de IA, que tem investido enormes recursos no desenvolvimento desses tipos de modelos. Estudos já mostraram que modelos de raciocínio, que podem ser incrivelmente caros de operar, possuem falhas sérias, como uma tendência a alucinar mais do que certos modelos convencionais.
Conteúdo relacionado
AllTrails lança assinatura de $80/ano que inclui rotas inteligentes com tecnologia de IA.
[the_ad id="145565"] AllTrails, o companheiro de caminhadas e ciclismo nomeado como o App do Ano para iPhone de 2023, está lançando uma nova assinatura premium chamada “Peak”,…
Co-fundador da Anthropic, Jared Kaplan, virá ao TechCrunch Sessions: AI
[the_ad id="145565"] Está com vontade de aprender mais sobre a Anthropic diretamente da fonte? Você não está sozinho, e é por isso que estamos animados em anunciar que Jared…
Príncipe saudita lança empreendimento de IA enquanto Trump, Musk, Altman e Zuckerberg chegam para conferência
[the_ad id="145565"] O governante da Arábia Saudita, Mohammed bin Salman, lançou uma empresa de IA chamada Humain para impulsionar o setor de inteligência artificial do país. A…