Podem Pictionary e Minecraft testar a engenhosidade dos modelos de IA?

A maioria dos benchmarks de IA não nos diz muito. Eles fazem perguntas que podem ser resolvidas por memorização, ou cobrem tópicos que não são relevantes para a maioria dos usuários.

Por isso, alguns entusiastas de IA estão recorrendo a jogos como forma de testar as habilidades de resolução de problemas das IAs.

Paul Calcraft, um desenvolvedor de IA freelancer, criou um aplicativo onde dois modelos de IA podem jogar um jogo semelhante ao Pictionary um com o outro. Um modelo faz rabiscos, enquanto o outro modelo tenta adivinhar o que o rabisco representa.

“Achei que isso soava super divertido e potencialmente interessante do ponto de vista das capacidades do modelo,” disse Calcraft ao TechCrunch em uma entrevista. “Então, passei um sábado nublado dentro de casa e finalizei isso.”

Calcraft se inspirou em um projeto semelhante do programador britânico Simon Willison, que desafiou os modelos a fazer um desenho vetorial de um pelicano montando uma bicicleta. Willison, assim como Calcraft, escolheu um desafio que ele acreditava forçar os modelos a “pensar” além do conteúdo de seus dados de treinamento.

LLM Pictionary — **Créditos da Imagem:** Paul Calcraft

“A ideia é ter um benchmark que não possa ser manipulado,” disse Calcraft. “Um benchmark que não pode ser superado por memorização de respostas específicas ou padrões simples que já foram vistos durante o treinamento.”

O Minecraft também se enquadra nessa categoria “não manipulável”, acredita Adonis Singh, um jovem de 16 anos. Ele criou uma ferramenta, chamada mc-bench, que dá a um modelo controle sobre um personagem do Minecraft e testa sua habilidade de projetar estruturas, de forma semelhante ao Projeto Malmo da Microsoft.

“Acredito que o Minecraft testa os modelos em termos de recursos e dá mais autonomia a eles,” ele disse ao TechCrunch. “Não é nem de longe tão restrito e saturado quanto [outros] benchmarks.”

O uso de jogos para avaliar IA não é novidade. A ideia remonta a décadas: o matemático Claude Shannon argumentou em 1949 que jogos como xadrez eram um desafio digno para softwares “inteligentes”. Mais recentemente, a DeepMind da Alphabet desenvolveu um modelo que conseguia jogar Pong e Breakout; a OpenAI treinou uma IA para competir em partidas de Dota 2; e a Meta projetou um algoritmo que poderia competir com jogadores profissionais de Texas hold ’em.

Mas o que é diferente agora é que os entusiastas estão conectando grandes modelos de linguagem (LLMs) — modelos com a capacidade de analisar texto, imagens e mais — a jogos para investigar quão bons eles são em lógica.

Existem muitos LLMs por aí, desde o Gemini e Claude até o GPT-4o, e todos têm “vibrações” diferentes, por assim dizer. Eles “sentem” diferentes de uma interação para a outra — um fenômeno que pode ser difícil de quantificar.

Mcbench — Note a correção; não há um modelo chamado Claude 3.6 Sonnet. **Créditos da Imagem:** Adonis Singh

“LLMs são conhecidos por serem sensíveis a jeitos particulares de formular perguntas e, em geral, não confiáveis e difíceis de prever,” disse Calcraft.

Em contraste com benchmarks baseados em texto, jogos oferecem uma maneira visual e intuitiva de comparar como um modelo se comporta e desempenha, disse Matthew Guzdial, um pesquisador de IA e professor na Universidade de Alberta.

“Podemos pensar em cada benchmark como uma simplificação diferente da realidade focada em tipos particulares de problemas, como raciocínio ou comunicação,” ele afirmou. “Os jogos são apenas outras formas de decisão que você pode fazer com IA, então as pessoas os estão utilizando como qualquer outra abordagem.”

Aqueles que conhecem a história da IA generativa notarão como o Pictionary é semelhante às redes adversariais generativas (GANs), nas quais um modelo criador envia imagens a um modelo discriminador que depois as avalia.

Calcraft acredita que o Pictionary pode capturar a capacidade de um LLM de entender conceitos como formas, cores e preposições (por exemplo, o significado de “dentro” versus “em cima”). Ele não iria tão longe a ponto de dizer que o jogo é um teste confiável de raciocínio, mas argumentou que ganhar requer estratégia e a capacidade de entender dicas — nada disso é fácil para os modelos.

“Eu também realmente gosto da natureza quase adversarial do jogo Pictionary, semelhante às GANs, onde você tem dois papéis diferentes: um desenha e o outro adivinha,” ele explicou. “O melhor a desenhar não é o mais artístico, mas aquele que pode comunicar mais claramente a ideia ao público de outros LLMs (incluindo os modelos muito menos capazes e mais rápidos!).”

“Pictionary é um problema de brinquedo que não é imediatamente prático ou realista,” Calcraft alertou. “Dito isso, eu realmente acredito que a compreensão espacial e a multimodalidade são elementos críticos para o avanço da IA, então o LLM Pictionary pode ser um pequeno e inicial passo nessa jornada.”

Singh acredita que o Minecraft também é um benchmark útil e pode medir o raciocínio em LLMs. “Dos modelos que testei até agora, os resultados alinham-se perfeitamente com quanto confio no modelo para algo relacionado ao raciocínio,” ele disse.

Outros, no entanto, não estão tão certos.

Mike Cook, um pesquisador da Queen Mary University especializado em IA, não acredita que o Minecraft seja particularmente especial como um laboratório de testes para IA.

“Acho que parte da fascinação com o Minecraft vem de pessoas fora da esfera dos jogos que talvez pensem que, por parecer ‘o mundo real’, tem uma conexão mais próxima com raciocínio ou ação do mundo real,” Cook contou ao TechCrunch. “Do ponto de vista da resolução de problemas, não é tão diferente de um videogame como Fortnite, Stardew Valley ou World of Warcraft. Tem apenas uma aparência diferente que faz parecer mais com tarefas do dia a dia, como construir coisas ou explorar.”

Para o ponto de Cook, mesmo os melhores sistemas de IA para jogos geralmente não se adaptam bem a novos ambientes e não conseguem resolver facilmente problemas que não já viram antes. Por exemplo, é improvável que um modelo que se destaca no Minecraft jogue Doom com qualquer habilidade real.

“Acho que as boas qualidades que o Minecraft tem do ponto de vista da IA são sinais de recompensa extremamente fracos e um mundo procedural, o que significa desafios imprevisíveis,” continuou Cook. “Mas não é realmente muito mais representativo do mundo real do que qualquer outro videogame.”

Dito isso, com certeza há algo fascinante em observar LLMs construindo castelos.

O TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.