Nem mesmo Pokémon está a salvo da controvérsia de benchmarking de IA.
Na semana passada, uma publicação no X se tornou viral, afirmando que o mais recente modelo Gemini do Google superou o modelo de destaque Claude da Anthropic na trilogia original de videogames Pokémon. Aparentemente, o Gemini chegou a Lavender Town durante uma transmissão ao vivo de um desenvolvedor no Twitch; o Claude estava preso em Mount Moon até o final de fevereiro.
Gemini está literalmente à frente de Claude agora em Pokémon, após chegar a Lavender Town
119 visualizações ao vivo apenas, de fato uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
Mas o que a publicação não mencionou é que o Gemini tinha uma vantagem.
Como apontaram usuários no Reddit, o desenvolvedor que mantém a transmissão do Gemini construiu um minimapa personalizado que ajuda o modelo a identificar “tiles” no jogo, como árvores cortáveis. Isso reduz a necessidade de o Gemini analisar capturas de tela antes de tomar decisões sobre o jogo.
Agora, Pokémon é um benchmark de IA semi-sério, no máximo — poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas é um exemplo instrutivo de como diferentes implementações de um benchmark podem influenciar os resultados.
Por exemplo, a Anthropic relatou duas pontuações para seu recente modelo Anthropic 3.7 Sonnet no benchmark SWE-bench Verified, que é projetado para avaliar as habilidades de codificação de um modelo. O Claude 3.7 Sonnet obteve 62,3% de precisão no SWE-bench Verified, mas 70,3% com um “andaime personalizado” que a Anthropic desenvolveu.
Mais recentemente, a Meta ajustou uma versão de um de seus modelos mais novos, Llama 4 Maverick, para se sair bem em um benchmark específico, o LM Arena. A versão original do modelo apresenta um desempenho significativamente pior na mesma avaliação.
Dado que benchmarks de IA — incluindo o Pokémon — são medidas imperfeitas desde o início, implementações personalizadas e não padronizadas ameaçam turvar ainda mais as águas. Ou seja, não parece provável que a comparação de modelos se torne mais fácil à medida que novos forem lançados.
Conteúdo relacionado
Parceiro da OpenAI diz que teve tempo relativamente curto para testar o modelo de IA o3 da empresa
[the_ad id="145565"] Uma organização com a qual a OpenAI frequentemente colabora para investigar as capacidades de seus modelos de IA e avaliá-los quanto à segurança, a Metr,…
A OpenAI está supostamente em negociações para comprar a Codeium por US$ 3 bilhões, com novidades esperadas ainda esta semana.
[the_ad id="145565"] A Codeium, criadora da popular ferramenta assistente de codificação AI Windsurf, está em negociações para ser adquirida pela OpenAI por cerca de US$ 3…
A Infinite Reality irá adquirir a empresa de IA agentiva Touchcast por 500 milhões de dólares.
[the_ad id="145565"] Infinite Reality — uma empresa dinâmica focada em IA, tecnologia imersiva e mídia digital — concordou em adquirir a empresa de IA agentiva Touchcast por…