Os debates sobre benchmarks de IA — e como são relatados pelos laboratórios de IA — estão se tornando públicos.
Nesta semana, um funcionário da OpenAI acusou a empresa de IA de Elon Musk, xAI, de publicar resultados de benchmark enganosos para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores da xAI, Igor Babushkin, insistiu que a empresa estava correta.
A verdade está em algum lugar no meio.
Em um post no blog da xAI, a empresa publicou um gráfico mostrando o desempenho do Grok 3 no AIME 2025, uma coleção de perguntas desafiadoras de matemática de uma recente prova de matemática invitacional. Alguns especialistas questionaram a validade do AIME como um benchmark de IA. No entanto, o AIME 2025 e versões anteriores do teste são comumente usados para avaliar a habilidade matemática de um modelo.
O gráfico da xAI mostrou duas variantes do Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, superando o melhor modelo disponível da OpenAI, o o3-mini-high, no AIME 2025. Mas os funcionários da OpenAI no X foram rápidos em apontar que o gráfico da xAI não incluía a pontuação do o3-mini-high no AIME 2025 em “cons@64”.
O que é cons@64, você pode perguntar? Bem, é a abreviação para “consensus@64”, que basicamente dá a um modelo 64 tentativas para responder a cada problema em um benchmark e leva as respostas geradas com maior frequência como as respostas finais. Como você pode imaginar, o cons@64 tende a aumentar bastante as pontuações dos benchmarks dos modelos, e omiti-lo de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, não é o caso.
As pontuações do Grok 3 Reasoning Beta e do Grok 3 mini Reasoning para o AIME 2025 em “@1” — significando a primeira pontuação que os modelos obtiveram no benchmark — estão abaixo da pontuação do o3-mini-high. O Grok 3 Reasoning Beta também fica ligeiramente atrás do modelo o1 da OpenAI configurado para computação “média”. No entanto, a xAI está anunciando o Grok 3 como a “IA mais inteligente do mundo.”
Babushkin argumentou no X que a OpenAI publicou gráficos de benchmark igualmente enganosos no passado — embora gráficos que comparam o desempenho de seus próprios modelos. Uma parte mais neutra no debate montou um gráfico mais “preciso” mostrando o desempenho de quase todos os modelos no cons@64:
É hilário como algumas pessoas veem meu gráfico como um ataque à OpenAI e outras como um ataque ao Grok, enquanto na realidade é propaganda da DeepSeek
(Na verdade, acredito que o Grok está bom aí, e a tramóia da OpenAI por trás do o3-mini-*high*-pass@”””1″”” merece mais escrutínio.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) 20 de fevereiro de 2025
Mas como o pesquisador de IA Nathan Lambert apontou em um post, talvez a métrica mais importante permaneça um mistério: o custo computacional (e monetário) que cada modelo teve para alcançar sua melhor pontuação. Isso apenas revela quão pouco a maioria dos benchmarks de IA comunica sobre as limitações dos modelos — e suas forças.
Conteúdo relacionado
Instituto de Segurança em IA dos EUA pode enfrentar grandes cortes
[the_ad id="145565"] O Instituto Nacional de Padrões e Tecnologia pode demitir até 500 funcionários, segundo múltiplos relatórios — cortes que ameaçam ainda mais uma…
As consequências da aquisição da Humane pela HP
[the_ad id="145565"] Bem-vindo de volta à Semana em Revisão. Esta semana, vamos explorar o caos interno em torno da aquisição de US$ 116 milhões da HP pela fabricante de IA Pin…
A ascensão dos agentes de uso de navegador: Por que o Proxy da Convergence está superando o Operator da OpenAI
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais Uma nova…