Pesquisadores afirmam ter descoberto um novo método para 'escalar' a IA, mas há motivos para ser cético.

Pesquisadores descobriram uma nova “lei de escala” em IA? É o que alguns comentários nas redes sociais sugerem — mas especialistas estão céticos.

As leis de escala de IA, um conceito um tanto informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e os recursos computacionais utilizados para treiná-los aumentam. Até cerca de um ano atrás, aumentar o “pré-treinamento” — treinar modelos cada vez maiores em conjuntos de dados cada vez maiores — era a principal abordagem, pelo menos no sentido de que a maioria dos laboratórios de IA de ponta a adotava.

O pré-treinamento não desapareceu, mas duas novas leis de escala, a escala pós-treinamento e a escala no tempo de teste, emergiram para complementá-lo. A escala pós-treinamento é essencialmente o ajuste do comportamento de um modelo, enquanto a escala no tempo de teste envolve aplicar mais computação à inferência — ou seja, executar modelos — para impulsionar uma forma de “raciocínio” (veja: modelos como R1).

Pesquisadores do Google e da Universidade da Califórnia, Berkeley, recentemente propuseram em um artigo o que alguns comentaristas online descreveram como uma quarta lei: “busca no tempo de inferência.”

A busca no tempo de inferência faz com que um modelo gere muitas possíveis respostas para uma consulta em paralelo e, em seguida, selecione a “melhor” delas. Os pesquisadores afirmam que isso pode aumentar o desempenho de um modelo de um ano, como o Gemini 1.5 Pro do Google, a um nível que supera o modelo de “raciocínio” o1-preview da OpenAI em benchmarks de ciência e matemática.

Nosso artigo se concentra nesse eixo de busca e suas tendências de escala. Por exemplo, ao apenas amostrar aleatoriamente 200 respostas e auto-verificar, o Gemini 1.5 (um modelo antigo de início de 2024!) supera o o1-Preview e se aproxima do o1. Isso sem ajuste fino, RL ou verificadores de verdade de base. pic.twitter.com/hB5fO7ifNh

— Eric Zhao (@ericzhao28) 17 de março de 2025

“[A]o apenas amostrar aleatoriamente 200 respostas e auto-verificar, o Gemini 1.5 — um modelo antigo de início de 2024 — supera o o1-preview e se aproxima do o1,” escreveu Eric Zhao, um doutorando do Google e um dos co-autores do artigo, em uma série de postagens no X. “A mágica é que a auto-verificação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se tornasse mais difícil à medida que o seu conjunto de soluções cresce, mas o oposto é o caso!”

No entanto, vários especialistas afirmam que os resultados não são surpreendentes e que a busca no tempo de inferência pode não ser útil em muitas situações.

Matthew Guzdial, um pesquisador de IA e professor assistente na Universidade de Alberta, disse ao TechCrunch que a abordagem funciona melhor quando há uma boa “função de avaliação” — em outras palavras, quando a melhor resposta a uma pergunta pode ser facilmente determinada. Mas a maioria das consultas não é tão direta.

“[Se] não conseguimos escrever código para definir o que queremos, não podemos usar a busca [no tempo de inferência],” disse ele. “Para algo como interação geral em linguagem, não podemos fazer isso […] Geralmente, não é uma ótima abordagem para resolver a maioria dos problemas.”

Mike Cook, um bolsista de pesquisa no King’s College London especializado em IA, concordou com a avaliação de Guzdial, acrescentando que isso destaca a diferença entre o “raciocínio” na acepção de IA e nossos próprios processos de pensamento.

“[A busca no tempo de inferência] não ‘eleva o processo de raciocínio’ do modelo,” disse Cook. “[É] apenas uma maneira de contornarmos as limitações de uma tecnologia propensa a cometer erros muito confiantemente suportados […] Intuitivamente, se seu modelo comete um erro 5% das vezes, então verificar 200 tentativas no mesmo problema deve tornar esses erros mais fáceis de identificar.”

Que a busca no tempo de inferência pode ter limitações é uma notícia difícil para uma indústria de IA que busca escalar o raciocínio de modelos de maneira eficiente em termos de computação. Como os co-autores do artigo observam, os modelos de raciocínio hoje podem acumular milhares de dólares em computação em um único problema de matemática.

Parece que a busca por novas técnicas de escala continuará.