Bolt42

Uma discrepância entre os resultados de benchmark de primeira e terceira partes para o modelo de IA o3 da OpenAI está levantando questões sobre a transparência da empresa e as práticas de teste do modelo.

Quando a OpenAI revelou o o3 em dezembro, a empresa alegou que o modelo poderia responder a pouco mais de um quarto das questões do FrontierMath, um conjunto desafiador de problemas matemáticos. Esse resultado superou a concorrência — o próximo melhor modelo conseguiu responder corretamente a apenas cerca de 2% dos problemas do FrontierMath.

“Hoje em dia, todas as ofertas disponíveis têm menos de 2% [no FrontierMath],” disse Mark Chen, diretor de pesquisa da OpenAI, durante uma transmissão ao vivo. “Estamos vendo [internamente], com o o3 em configurações agressivas de computação em tempo de teste, que conseguimos mais de 25%.”

Acontece que esse número era provavelmente um limite superior, alcançado por uma versão do o3 com mais recursos computacionais do que o modelo que a OpenAI lançou publicamente na semana passada.

A Epoch AI, o instituto de pesquisa por trás do FrontierMath, divulgou na sexta-feira os resultados de seus testes de benchmark independentes do o3. A Epoch encontrou que o o3 marcou cerca de 10%, bem abaixo da maior pontuação alegada pela OpenAI.

Isso não significa que a OpenAI mentiu, por si só. Os resultados de benchmark que a empresa publicou em dezembro mostram uma pontuação de limite inferior que corresponde à pontuação observada pela Epoch. A Epoch também observou que sua configuração de teste provavelmente difere da da OpenAI e que usou uma versão atualizada do FrontierMath para suas avaliações.

“A diferença entre nossos resultados e os da OpenAI pode ser devido à OpenAI avaliando com um suporte interno mais poderoso, usando mais computação em tempo de teste, ou porque aqueles resultados foram realizados em um subconjunto diferente do FrontierMath (os 180 problemas em frontiermath-2024-11-26 versus os 290 problemas em frontiermath-2025-02-28-private),” escreveu a Epoch.

De acordo com uma postagem no X da ARC Prize Foundation, uma organização que testou uma versão pré-lançamento do o3, o modelo público do o3 “é um modelo diferente […] ajustado para uso em chat/produto,” corroborando o relatório da Epoch.

“Todos os níveis de computação do o3 lançados são menores do que a versão que [avaliamos],” escreveu a ARC Prize. De maneira geral, pode-se esperar que níveis de computação maiores atinjam melhores pontuações em benchmarks.

Vale ressaltar que o fato de que o lançamento público do o3 não atenda às promessas de testes da OpenAI é um ponto um tanto irrelevante, uma vez que os modelos o3-mini-high e o4-mini da empresa superam o o3 no FrontierMath, e a OpenAI planeja lançar uma variante mais poderosa do o3, o o3-pro, nas próximas semanas.

No entanto, isso é mais um lembrete de que benchmarks de IA não devem ser tomados ao pé da letra — particularmente quando a fonte é uma empresa com serviços a vender.

“Controvérsias” em benchmark estão se tornando uma ocorrência comum na indústria de IA, à medida que os vendedores correm para captar manchetes e atenção com novos modelos.

Em janeiro, a Epoch foi criticada por esperar para divulgar o financiamento da OpenAI até depois que a empresa anunciou o o3. Muitos acadêmicos que contribuíram para o FrontierMath não foram informados sobre a participação da OpenAI até que isso se tornasse público.

Mais recentemente, a xAI de Elon Musk foi acusada de publicar gráficos de benchmark enganosos para seu último modelo de IA, Grok 3. Apenas este mês, a Meta admitiu ter divulgado pontuações de benchmark para uma versão de um modelo que era diferente daquela que a empresa disponibilizou aos desenvolvedores.


    um + onze =

    Bolt42