Nem mesmo Pokémon está a salvo da controvérsia de benchmarking de IA.
Na semana passada, uma publicação no X se tornou viral, afirmando que o mais recente modelo Gemini do Google superou o modelo de destaque Claude da Anthropic na trilogia original de videogames Pokémon. Aparentemente, o Gemini chegou a Lavender Town durante uma transmissão ao vivo de um desenvolvedor no Twitch; o Claude estava preso em Mount Moon até o final de fevereiro.
Gemini está literalmente à frente de Claude agora em Pokémon, após chegar a Lavender Town
119 visualizações ao vivo apenas, de fato uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
Mas o que a publicação não mencionou é que o Gemini tinha uma vantagem.
Como apontaram usuários no Reddit, o desenvolvedor que mantém a transmissão do Gemini construiu um minimapa personalizado que ajuda o modelo a identificar “tiles” no jogo, como árvores cortáveis. Isso reduz a necessidade de o Gemini analisar capturas de tela antes de tomar decisões sobre o jogo.
Agora, Pokémon é um benchmark de IA semi-sério, no máximo — poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas é um exemplo instrutivo de como diferentes implementações de um benchmark podem influenciar os resultados.
Por exemplo, a Anthropic relatou duas pontuações para seu recente modelo Anthropic 3.7 Sonnet no benchmark SWE-bench Verified, que é projetado para avaliar as habilidades de codificação de um modelo. O Claude 3.7 Sonnet obteve 62,3% de precisão no SWE-bench Verified, mas 70,3% com um “andaime personalizado” que a Anthropic desenvolveu.
Mais recentemente, a Meta ajustou uma versão de um de seus modelos mais novos, Llama 4 Maverick, para se sair bem em um benchmark específico, o LM Arena. A versão original do modelo apresenta um desempenho significativamente pior na mesma avaliação.
Dado que benchmarks de IA — incluindo o Pokémon — são medidas imperfeitas desde o início, implementações personalizadas e não padronizadas ameaçam turvar ainda mais as águas. Ou seja, não parece provável que a comparação de modelos se torne mais fácil à medida que novos forem lançados.
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…