Controvérsia sobre benchmarks do Grok 3 da xAI

Os debates sobre benchmarks de IA — e como são relatados pelos laboratórios de IA — estão se tornando públicos.

Nesta semana, um funcionário da OpenAI acusou a empresa de IA de Elon Musk, xAI, de publicar resultados de benchmark enganosos para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores da xAI, Igor Babushkin, insistiu que a empresa estava correta.

A verdade está em algum lugar no meio.

Em um post no blog da xAI, a empresa publicou um gráfico mostrando o desempenho do Grok 3 no AIME 2025, uma coleção de perguntas desafiadoras de matemática de uma recente prova de matemática invitacional. Alguns especialistas questionaram a validade do AIME como um benchmark de IA. No entanto, o AIME 2025 e versões anteriores do teste são comumente usados para avaliar a habilidade matemática de um modelo.

O gráfico da xAI mostrou duas variantes do Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, superando o melhor modelo disponível da OpenAI, o o3-mini-high, no AIME 2025. Mas os funcionários da OpenAI no X foram rápidos em apontar que o gráfico da xAI não incluía a pontuação do o3-mini-high no AIME 2025 em “cons@64”.

O que é cons@64, você pode perguntar? Bem, é a abreviação para “consensus@64”, que basicamente dá a um modelo 64 tentativas para responder a cada problema em um benchmark e leva as respostas geradas com maior frequência como as respostas finais. Como você pode imaginar, o cons@64 tende a aumentar bastante as pontuações dos benchmarks dos modelos, e omiti-lo de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, não é o caso.

As pontuações do Grok 3 Reasoning Beta e do Grok 3 mini Reasoning para o AIME 2025 em “@1” — significando a primeira pontuação que os modelos obtiveram no benchmark — estão abaixo da pontuação do o3-mini-high. O Grok 3 Reasoning Beta também fica ligeiramente atrás do modelo o1 da OpenAI configurado para computação “média”. No entanto, a xAI está anunciando o Grok 3 como a “IA mais inteligente do mundo.”

Babushkin argumentou no X que a OpenAI publicou gráficos de benchmark igualmente enganosos no passado — embora gráficos que comparam o desempenho de seus próprios modelos. Uma parte mais neutra no debate montou um gráfico mais “preciso” mostrando o desempenho de quase todos os modelos no cons@64:

É hilário como algumas pessoas veem meu gráfico como um ataque à OpenAI e outras como um ataque ao Grok, enquanto na realidade é propaganda da DeepSeek
(Na verdade, acredito que o Grok está bom aí, e a tramóia da OpenAI por trás do o3-mini-*high*-pass@”””1″”” merece mais escrutínio.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic

— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) 20 de fevereiro de 2025

Mas como o pesquisador de IA Nathan Lambert apontou em um post, talvez a métrica mais importante permaneça um mistério: o custo computacional (e monetário) que cada modelo teve para alcançar sua melhor pontuação. Isso apenas revela quão pouco a maioria dos benchmarks de IA comunica sobre as limitações dos modelos — e suas forças.

Conteúdo relacionado

BusinessInteligência artificial

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…

BusinessInteligência artificial

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…

Inteligência artificial

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE

[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…

A xAI mentiu sobre os benchmarks do Grok 3?

Conteúdo relacionado

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE