Bolt42

Os debates sobre benchmarks de IA — e como são relatados pelos laboratórios de IA — estão se tornando públicos.

Nesta semana, um funcionário da OpenAI acusou a empresa de IA de Elon Musk, xAI, de publicar resultados de benchmark enganosos para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores da xAI, Igor Babushkin, insistiu que a empresa estava correta.

A verdade está em algum lugar no meio.

Em um post no blog da xAI, a empresa publicou um gráfico mostrando o desempenho do Grok 3 no AIME 2025, uma coleção de perguntas desafiadoras de matemática de uma recente prova de matemática invitacional. Alguns especialistas questionaram a validade do AIME como um benchmark de IA. No entanto, o AIME 2025 e versões anteriores do teste são comumente usados para avaliar a habilidade matemática de um modelo.

O gráfico da xAI mostrou duas variantes do Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, superando o melhor modelo disponível da OpenAI, o o3-mini-high, no AIME 2025. Mas os funcionários da OpenAI no X foram rápidos em apontar que o gráfico da xAI não incluía a pontuação do o3-mini-high no AIME 2025 em “cons@64”.

O que é cons@64, você pode perguntar? Bem, é a abreviação para “consensus@64”, que basicamente dá a um modelo 64 tentativas para responder a cada problema em um benchmark e leva as respostas geradas com maior frequência como as respostas finais. Como você pode imaginar, o cons@64 tende a aumentar bastante as pontuações dos benchmarks dos modelos, e omiti-lo de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, não é o caso.

As pontuações do Grok 3 Reasoning Beta e do Grok 3 mini Reasoning para o AIME 2025 em “@1” — significando a primeira pontuação que os modelos obtiveram no benchmark — estão abaixo da pontuação do o3-mini-high. O Grok 3 Reasoning Beta também fica ligeiramente atrás do modelo o1 da OpenAI configurado para computação “média”. No entanto, a xAI está anunciando o Grok 3 como a “IA mais inteligente do mundo.”

Babushkin argumentou no X que a OpenAI publicou gráficos de benchmark igualmente enganosos no passado — embora gráficos que comparam o desempenho de seus próprios modelos. Uma parte mais neutra no debate montou um gráfico mais “preciso” mostrando o desempenho de quase todos os modelos no cons@64:

Mas como o pesquisador de IA Nathan Lambert apontou em um post, talvez a métrica mais importante permaneça um mistério: o custo computacional (e monetário) que cada modelo teve para alcançar sua melhor pontuação. Isso apenas revela quão pouco a maioria dos benchmarks de IA comunica sobre as limitações dos modelos — e suas forças.


    onze + dezesseis =

    Bolt42