A Anthropic usou Pokémon para avaliar seu mais recente modelo de IA

A Anthropic usou Pokémon para avaliar seu mais recente modelo de IA. Sim, é verdade.

Em um postagem de blog publicada na segunda-feira, a Anthropic afirmou que testou seu último modelo, Claude 3.7 Sonnet, no clássico Pokémon Red do Game Boy. A empresa dotou o modelo de memória básica, entrada de pixel da tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ele jogasse Pokémon continuamente.

Uma característica única do Claude 3.7 Sonnet é sua capacidade de realizar “pensamento prolongado”. Assim como o o3-mini da OpenAI e o R1 da DeepSeek, o Claude 3.7 Sonnet pode “raciocinar” problemas desafiadores aplicando mais computação – e levando mais tempo.

Isso foi útil no Pokémon Red, aparentemente.

Comparado a uma versão anterior, o Claude 3.0 Sonnet, que não conseguiu sair de Pallet Town, onde a história começa, o Claude 3.7 Sonnet conseguiu batalhar contra três líderes de ginásio Pokémon e ganhar suas insígnias.

Anthropic Pokemon Red — **Créditos da Imagem:** Anthropic

Agora, não está claro quanto de computação foi necessário para que Claude 3.7 Sonnet alcançasse essas conquistas – e quanto tempo cada uma levou. A Anthropic apenas informou que o modelo realizou 35.000 ações para chegar ao último líder de ginásio, Surge.

Certamente, não deve demorar muito até que algum desenvolvedor empreendedor descubra isso.

Pokémon Red é mais um brinquedo de benchmark do que qualquer outra coisa. No entanto, há uma longa história de jogos sendo usados para fins de benchmarking de IA. Apenas nos últimos meses, uma série de novos aplicativos e plataformas surgiram para testar as habilidades de jogo dos modelos em títulos que vão de Street Fighter a Pictionary.