A Genie 2 da DeepMind pode criar mundos interativos que parecem videogames

A DeepMind, organização de pesquisa em IA do Google, revelou um modelo que pode gerar uma variedade “infinita” de mundos 3D jogáveis.

Chamado Genie 2, o modelo — sucessor do Genie da DeepMind, que foi lançado mais cedo este ano — pode criar uma cena interativa e em tempo real a partir de uma única imagem e descrição de texto (por exemplo, “Um robô humanoide fofo na floresta”). De certa forma, é semelhante aos modelos em desenvolvimento pela empresa World Labs, de Fei-Fei Li, e pela startup israelense Decart.

A DeepMind afirma que o Genie 2 pode gerar uma “vasta diversidade de mundos 3D ricos”, incluindo mundos onde os usuários podem realizar ações como pular e nadar usando mouse ou teclado. Treinado com vídeos, o modelo é capaz de simular interações entre objetos, animações, iluminação, física, reflexões e o comportamento de “NPCs”.

DeepMind Genie 2 — **Créditos da Imagem:**DeepMind

Muitas das simulações do Genie 2 se assemelham a jogos AAA — e a razão pode ser que os dados de treinamento do modelo contenham playthroughs de títulos populares. No entanto, a DeepMind, como muitos laboratórios de IA, não revela muitos detalhes sobre seus métodos de coleta de dados, por razões competitivas ou outras.

Fica a dúvida sobre as implicações de propriedade intelectual. A DeepMind — sendo uma subsidiária do Google — tem acesso irrestrito ao YouTube, e o Google já insinuou anteriormente que seus termos de serviço dão permissão para usar vídeos do YouTube para treinamento de modelos. Mas o Genie 2 está, essencialmente, criando cópias não autorizadas dos videogames que “assistiu”? Isso cabe aos tribunais decidir.

A DeepMind afirma que o Genie 2 pode gerar mundos consistentes com diferentes perspectivas, como vistas em primeira pessoa e isométricas, por até um minuto, sendo que a maioria dura de 10 a 20 segundos.

“O Genie 2 responde de forma inteligente às ações tomadas ao pressionar teclas no teclado, identificando o personagem e movendo-o corretamente”, escreveu a DeepMind em um post de blog. “Por exemplo, nosso modelo [pode] entender que as teclas de seta devem mover um robô e não árvores ou nuvens.”

A maioria dos modelos como o Genie 2 — modelos de mundo, se preferir — pode simular jogos e ambientes 3D, mas com problemas de artefatos, consistência e alucinações. Por exemplo, o simulador de Minecraft da Decart, Oasis, tem baixa resolução e rapidamente “esquece” o layout dos níveis.

O Genie 2, no entanto, pode lembrar partes de uma cena simulada que não estão à vista e renderizá-las com precisão quando se tornam visíveis novamente. (Os modelos da World Labs também podem fazer isso.)

Agora, os jogos criados com o Genie 2 realmente não seriam muito divertidos, já que apagariam seu progresso a cada minuto. Por isso, a DeepMind está posicionando o modelo mais como uma ferramenta de pesquisa e criatividade — uma ferramenta para prototipar “experiências interativas” e avaliar agentes de IA.

“Graças às capacidades de generalização fora da distribuição do Genie 2, artes conceituais e desenhos podem ser transformados em ambientes totalmente interativos”, escreveu a DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversos para os agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes não viram durante o treinamento.”

A DeepMind afirma que, embora o Genie 2 esteja em estágios iniciais, o laboratório acredita que será um componente chave no desenvolvimento de agentes de IA do futuro.

Criativos podem ter sentimentos mistos — especialmente aqueles da indústria de videogames. Uma recente investigação da Wired constatou que grandes empresas como a Activision Blizzard, que demitiu muitos trabalhadores, estão usando IA para cortar custos, aumentar a produtividade e compensar a evasão.

O Google tem investido cada vez mais recursos na pesquisa de modelos de mundo, que promete ser a próxima grande coisa em IA generativa. Em outubro, a DeepMind contratou Tim Brooks, que estava à frente do desenvolvimento do gerador de vídeo Sora da OpenAI, para trabalhar em tecnologias de geração de vídeo e simuladores de mundo. E dois anos atrás, o laboratório contratou Tim Rocktäschel, mais conhecido por seus experimentos de “abertura” com jogos como Nethack, da Meta.