As pessoas estão avaliando a IA fazendo bolas quicarem em formas rotacionantes

A lista de benchmarks informais e curiosos de IA continua a crescer.

Nos últimos dias, alguns membros da comunidade de IA no X se tornaram obsessivos com um teste de como diferentes modelos de IA, especialmente os chamados modelos de raciocínio, lidam com prompts como este: “Escreva um roteiro em Python para uma bola amarela quicante dentro de uma forma. Faça a forma rotacionar lentamente e garanta que a bola permaneça dentro da forma.”

Alguns modelos se saem melhor nesse benchmark da “bola na forma rotativa” do que outros. De acordo com um usuário no X, o R1 do laboratório de IA chinês DeepSeek, disponível gratuitamente, superou o modo pro o1 da OpenAI, que custa $200 por mês como parte do plano ChatGPT Pro da OpenAI.

👀 DeepSeek R1 (direita) arrasou o o1-pro (esquerda) 👀

Prompt: “escreva um roteiro em python para uma bola amarela quicante dentro de um quadrado, certifique-se de lidar corretamente com a detecção de colisões. faça o quadrado rotacionar lentamente. implemente isso em python. garanta que a bola permaneça dentro do quadrado” pic.twitter.com/3Sad9efpeZ

— Ivan Fioravanti ᯅ (@ivanfioravanti) 22 de janeiro de 2025

De acordo com outro usuário do X, os modelos Claude 3.5 Sonnet da Anthropic e Gemini 1.5 Pro do Google erraram na física, fazendo com que a bola escapasse da forma. Outros usuários relataram que o Gemini 2.0 Flash Thinking Experimental do Google e até mesmo o mais antigo GPT-4o da OpenAI conseguiram passar na avaliação em uma única tentativa.

Testei 9 modelos de IA em uma tarefa de simulação física: triângulo rotativo + bola quicante. Resultados:

🥇 Deepseek-R1
🥈 Sonar Huge
🥉 GPT-4o

Pior? OpenAI o1: Completamente não entendeu a tarefa 😂

Vídeo abaixo ↓ Primeira linha = Modelos de raciocínio, o resto = Modelos base. pic.twitter.com/EOYrHvNazr

— Aadhithya D (@Aadhithya_D2003) 22 de janeiro de 2025

Mas o que isso prova que uma IA pode ou não codificar uma forma rotativa com uma bola?

Bem, simular uma bola quicante é um desafio clássico de programação desafiador. Simulações precisas incorporam algoritmos de detecção de colisão, que tentam identificar quando dois objetos (como uma bola e o lado de uma forma) colidem. Algoritmos mal escritos podem afetar o desempenho da simulação ou levar a erros físicos evidentes.

O usuário do X N8 Programs, um pesquisador residente na startup de IA Nous Research, afirma que levou cerca de duas horas para programar uma bola quicante em um heptágono rotativo do zero. “É necessário acompanhar múltiplos sistemas de coordenadas, como as colisões são feitas em cada sistema e projetar o código desde o início para ser robusto,” explicou N8 Programs em uma publicação.

Mas enquanto bolas quicantes e formas rotativas são um teste razoável de habilidades de programação, não são um benchmark empírico muito eficaz para IA. Mesmo pequenas variações no prompt podem — e de fato resultam em — diferentes resultados. É por isso que alguns usuários no X relatam ter mais sorte com o1, enquanto outros afirmam que o R1 deixa a desejar.

Seja como for, testes virais como esses indicam o problema intratável de criar sistemas de medição úteis para modelos de IA. Muitas vezes é difícil saber o que diferencia um modelo do outro, além de benchmarks esotéricos que não são relevantes para a maioria das pessoas.

Muitas iniciativas estão em andamento para construir testes melhores, como o benchmark ARC-AGI e o Humanity’s Last Exam. Veremos como esses se sairão — e, enquanto isso, assistiremos a GIFs de bolas quicantes em formas rotativas.