Os debates sobre a avaliação de IA chegaram aos Pokémon

Nem mesmo Pokémon está a salvo da controvérsia de benchmarking de IA.

Na semana passada, uma publicação no X se tornou viral, afirmando que o mais recente modelo Gemini do Google superou o modelo de destaque Claude da Anthropic na trilogia original de videogames Pokémon. Aparentemente, o Gemini chegou a Lavender Town durante uma transmissão ao vivo de um desenvolvedor no Twitch; o Claude estava preso em Mount Moon até o final de fevereiro.

Gemini está literalmente à frente de Claude agora em Pokémon, após chegar a Lavender Town

119 visualizações ao vivo apenas, de fato uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 10 de abril de 2025

Mas o que a publicação não mencionou é que o Gemini tinha uma vantagem.

Como apontaram usuários no Reddit, o desenvolvedor que mantém a transmissão do Gemini construiu um minimapa personalizado que ajuda o modelo a identificar “tiles” no jogo, como árvores cortáveis. Isso reduz a necessidade de o Gemini analisar capturas de tela antes de tomar decisões sobre o jogo.

Agora, Pokémon é um benchmark de IA semi-sério, no máximo — poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas é um exemplo instrutivo de como diferentes implementações de um benchmark podem influenciar os resultados.

Por exemplo, a Anthropic relatou duas pontuações para seu recente modelo Anthropic 3.7 Sonnet no benchmark SWE-bench Verified, que é projetado para avaliar as habilidades de codificação de um modelo. O Claude 3.7 Sonnet obteve 62,3% de precisão no SWE-bench Verified, mas 70,3% com um “andaime personalizado” que a Anthropic desenvolveu.

Mais recentemente, a Meta ajustou uma versão de um de seus modelos mais novos, Llama 4 Maverick, para se sair bem em um benchmark específico, o LM Arena. A versão original do modelo apresenta um desempenho significativamente pior na mesma avaliação.

Dado que benchmarks de IA — incluindo o Pokémon — são medidas imperfeitas desde o início, implementações personalizadas e não padronizadas ameaçam turvar ainda mais as águas. Ou seja, não parece provável que a comparação de modelos se torne mais fácil à medida que novos forem lançados.