Bolt42

A lista de benchmarks informais e curiosos de IA continua a crescer.

Nos últimos dias, alguns membros da comunidade de IA no X se tornaram obsessivos com um teste de como diferentes modelos de IA, especialmente os chamados modelos de raciocínio, lidam com prompts como este: “Escreva um roteiro em Python para uma bola amarela quicante dentro de uma forma. Faça a forma rotacionar lentamente e garanta que a bola permaneça dentro da forma.”

Alguns modelos se saem melhor nesse benchmark da “bola na forma rotativa” do que outros. De acordo com um usuário no X, o R1 do laboratório de IA chinês DeepSeek, disponível gratuitamente, superou o modo pro o1 da OpenAI, que custa $200 por mês como parte do plano ChatGPT Pro da OpenAI.

De acordo com outro usuário do X, os modelos Claude 3.5 Sonnet da Anthropic e Gemini 1.5 Pro do Google erraram na física, fazendo com que a bola escapasse da forma. Outros usuários relataram que o Gemini 2.0 Flash Thinking Experimental do Google e até mesmo o mais antigo GPT-4o da OpenAI conseguiram passar na avaliação em uma única tentativa.

Mas o que isso prova que uma IA pode ou não codificar uma forma rotativa com uma bola?

Bem, simular uma bola quicante é um desafio clássico de programação desafiador. Simulações precisas incorporam algoritmos de detecção de colisão, que tentam identificar quando dois objetos (como uma bola e o lado de uma forma) colidem. Algoritmos mal escritos podem afetar o desempenho da simulação ou levar a erros físicos evidentes.

O usuário do X N8 Programs, um pesquisador residente na startup de IA Nous Research, afirma que levou cerca de duas horas para programar uma bola quicante em um heptágono rotativo do zero. “É necessário acompanhar múltiplos sistemas de coordenadas, como as colisões são feitas em cada sistema e projetar o código desde o início para ser robusto,” explicou N8 Programs em uma publicação.

Mas enquanto bolas quicantes e formas rotativas são um teste razoável de habilidades de programação, não são um benchmark empírico muito eficaz para IA. Mesmo pequenas variações no prompt podem — e de fato resultam em — diferentes resultados. É por isso que alguns usuários no X relatam ter mais sorte com o1, enquanto outros afirmam que o R1 deixa a desejar.

Seja como for, testes virais como esses indicam o problema intratável de criar sistemas de medição úteis para modelos de IA. Muitas vezes é difícil saber o que diferencia um modelo do outro, além de benchmarks esotéricos que não são relevantes para a maioria das pessoas.

Muitas iniciativas estão em andamento para construir testes melhores, como o benchmark ARC-AGI e o Humanity’s Last Exam. Veremos como esses se sairão — e, enquanto isso, assistiremos a GIFs de bolas quicantes em formas rotativas.


    10 + quatro =

    Bolt42