Pesquisadores descobriram uma nova “lei de escala” em IA? É o que alguns comentários nas redes sociais sugerem — mas especialistas estão céticos.
As leis de escala de IA, um conceito um tanto informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e os recursos computacionais utilizados para treiná-los aumentam. Até cerca de um ano atrás, aumentar o “pré-treinamento” — treinar modelos cada vez maiores em conjuntos de dados cada vez maiores — era a principal abordagem, pelo menos no sentido de que a maioria dos laboratórios de IA de ponta a adotava.
O pré-treinamento não desapareceu, mas duas novas leis de escala, a escala pós-treinamento e a escala no tempo de teste, emergiram para complementá-lo. A escala pós-treinamento é essencialmente o ajuste do comportamento de um modelo, enquanto a escala no tempo de teste envolve aplicar mais computação à inferência — ou seja, executar modelos — para impulsionar uma forma de “raciocínio” (veja: modelos como R1).
Pesquisadores do Google e da Universidade da Califórnia, Berkeley, recentemente propuseram em um artigo o que alguns comentaristas online descreveram como uma quarta lei: “busca no tempo de inferência.”
A busca no tempo de inferência faz com que um modelo gere muitas possíveis respostas para uma consulta em paralelo e, em seguida, selecione a “melhor” delas. Os pesquisadores afirmam que isso pode aumentar o desempenho de um modelo de um ano, como o Gemini 1.5 Pro do Google, a um nível que supera o modelo de “raciocínio” o1-preview da OpenAI em benchmarks de ciência e matemática.
Nosso artigo se concentra nesse eixo de busca e suas tendências de escala. Por exemplo, ao apenas amostrar aleatoriamente 200 respostas e auto-verificar, o Gemini 1.5 (um modelo antigo de início de 2024!) supera o o1-Preview e se aproxima do o1. Isso sem ajuste fino, RL ou verificadores de verdade de base. pic.twitter.com/hB5fO7ifNh
— Eric Zhao (@ericzhao28) 17 de março de 2025
“[A]o apenas amostrar aleatoriamente 200 respostas e auto-verificar, o Gemini 1.5 — um modelo antigo de início de 2024 — supera o o1-preview e se aproxima do o1,” escreveu Eric Zhao, um doutorando do Google e um dos co-autores do artigo, em uma série de postagens no X. “A mágica é que a auto-verificação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se tornasse mais difícil à medida que o seu conjunto de soluções cresce, mas o oposto é o caso!”
No entanto, vários especialistas afirmam que os resultados não são surpreendentes e que a busca no tempo de inferência pode não ser útil em muitas situações.
Matthew Guzdial, um pesquisador de IA e professor assistente na Universidade de Alberta, disse ao TechCrunch que a abordagem funciona melhor quando há uma boa “função de avaliação” — em outras palavras, quando a melhor resposta a uma pergunta pode ser facilmente determinada. Mas a maioria das consultas não é tão direta.
“[Se] não conseguimos escrever código para definir o que queremos, não podemos usar a busca [no tempo de inferência],” disse ele. “Para algo como interação geral em linguagem, não podemos fazer isso […] Geralmente, não é uma ótima abordagem para resolver a maioria dos problemas.”
Mike Cook, um bolsista de pesquisa no King’s College London especializado em IA, concordou com a avaliação de Guzdial, acrescentando que isso destaca a diferença entre o “raciocínio” na acepção de IA e nossos próprios processos de pensamento.
“[A busca no tempo de inferência] não ‘eleva o processo de raciocínio’ do modelo,” disse Cook. “[É] apenas uma maneira de contornarmos as limitações de uma tecnologia propensa a cometer erros muito confiantemente suportados […] Intuitivamente, se seu modelo comete um erro 5% das vezes, então verificar 200 tentativas no mesmo problema deve tornar esses erros mais fáceis de identificar.”
Que a busca no tempo de inferência pode ter limitações é uma notícia difícil para uma indústria de IA que busca escalar o raciocínio de modelos de maneira eficiente em termos de computação. Como os co-autores do artigo observam, os modelos de raciocínio hoje podem acumular milhares de dólares em computação em um único problema de matemática.
Parece que a busca por novas técnicas de escala continuará.
Conteúdo relacionado
AllTrails lança assinatura de $80/ano que inclui rotas inteligentes com tecnologia de IA.
[the_ad id="145565"] AllTrails, o companheiro de caminhadas e ciclismo nomeado como o App do Ano para iPhone de 2023, está lançando uma nova assinatura premium chamada “Peak”,…
Melhorias nos modelos de IA de ‘raciocínio’ podem desacelerar em breve, aponta análise.
[the_ad id="145565"] Uma análise da Epoch AI, um instituto de pesquisa em IA sem fins lucrativos, sugere que a indústria de IA pode não conseguir obter grandes ganhos de…
Co-fundador da Anthropic, Jared Kaplan, virá ao TechCrunch Sessions: AI
[the_ad id="145565"] Está com vontade de aprender mais sobre a Anthropic diretamente da fonte? Você não está sozinho, e é por isso que estamos animados em anunciar que Jared…