A Anthropic usou Pokémon para avaliar seu mais recente modelo de IA. Sim, é verdade.
Em um postagem de blog publicada na segunda-feira, a Anthropic afirmou que testou seu último modelo, Claude 3.7 Sonnet, no clássico Pokémon Red do Game Boy. A empresa dotou o modelo de memória básica, entrada de pixel da tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ele jogasse Pokémon continuamente.
Uma característica única do Claude 3.7 Sonnet é sua capacidade de realizar “pensamento prolongado”. Assim como o o3-mini da OpenAI e o R1 da DeepSeek, o Claude 3.7 Sonnet pode “raciocinar” problemas desafiadores aplicando mais computação – e levando mais tempo.
Isso foi útil no Pokémon Red, aparentemente.
Comparado a uma versão anterior, o Claude 3.0 Sonnet, que não conseguiu sair de Pallet Town, onde a história começa, o Claude 3.7 Sonnet conseguiu batalhar contra três líderes de ginásio Pokémon e ganhar suas insígnias.

Agora, não está claro quanto de computação foi necessário para que Claude 3.7 Sonnet alcançasse essas conquistas – e quanto tempo cada uma levou. A Anthropic apenas informou que o modelo realizou 35.000 ações para chegar ao último líder de ginásio, Surge.
Certamente, não deve demorar muito até que algum desenvolvedor empreendedor descubra isso.
Pokémon Red é mais um brinquedo de benchmark do que qualquer outra coisa. No entanto, há uma longa história de jogos sendo usados para fins de benchmarking de IA. Apenas nos últimos meses, uma série de novos aplicativos e plataformas surgiram para testar as habilidades de jogo dos modelos em títulos que vão de Street Fighter a Pictionary.
Conteúdo relacionado
DeepSeek: Tudo o que você precisa saber sobre o aplicativo de chatbot de IA.
[the_ad id="145565"] O DeepSeek se tornou viral. O laboratório de IA chinês DeepSeek ganhou destaque esta semana, depois que seu aplicativo de chatbot alcançou o topo das…
Grok 3 parece estar elevando o uso do Grok a novos patamares.
[the_ad id="145565"] A empresa de IA de Elon Musk, xAI, lançou na semana passada o Grok 3, seu tão aguardado modelo de IA. O Grok 3 alimenta os aplicativos de chatbot Grok para…
Anthropic lança um novo modelo de IA que ‘pensa’ por quanto tempo você quiser.
[the_ad id="145565"] A Anthropic está lançando um novo modelo de IA de fronteira chamado Claude 3.7 Sonnet, que a empresa projetou para "pensar" sobre perguntas pelo tempo que…