A DeepMind, organização de pesquisa em IA do Google, revelou um modelo que pode gerar uma variedade “infinita” de mundos 3D jogáveis.
Chamado Genie 2, o modelo — sucessor do Genie da DeepMind, que foi lançado mais cedo este ano — pode criar uma cena interativa e em tempo real a partir de uma única imagem e descrição de texto (por exemplo, “Um robô humanoide fofo na floresta”). De certa forma, é semelhante aos modelos em desenvolvimento pela empresa World Labs, de Fei-Fei Li, e pela startup israelense Decart.
A DeepMind afirma que o Genie 2 pode gerar uma “vasta diversidade de mundos 3D ricos”, incluindo mundos onde os usuários podem realizar ações como pular e nadar usando mouse ou teclado. Treinado com vídeos, o modelo é capaz de simular interações entre objetos, animações, iluminação, física, reflexões e o comportamento de “NPCs”.

Muitas das simulações do Genie 2 se assemelham a jogos AAA — e a razão pode ser que os dados de treinamento do modelo contenham playthroughs de títulos populares. No entanto, a DeepMind, como muitos laboratórios de IA, não revela muitos detalhes sobre seus métodos de coleta de dados, por razões competitivas ou outras.
Fica a dúvida sobre as implicações de propriedade intelectual. A DeepMind — sendo uma subsidiária do Google — tem acesso irrestrito ao YouTube, e o Google já insinuou anteriormente que seus termos de serviço dão permissão para usar vídeos do YouTube para treinamento de modelos. Mas o Genie 2 está, essencialmente, criando cópias não autorizadas dos videogames que “assistiu”? Isso cabe aos tribunais decidir.
A DeepMind afirma que o Genie 2 pode gerar mundos consistentes com diferentes perspectivas, como vistas em primeira pessoa e isométricas, por até um minuto, sendo que a maioria dura de 10 a 20 segundos.
“O Genie 2 responde de forma inteligente às ações tomadas ao pressionar teclas no teclado, identificando o personagem e movendo-o corretamente”, escreveu a DeepMind em um post de blog. “Por exemplo, nosso modelo [pode] entender que as teclas de seta devem mover um robô e não árvores ou nuvens.”

A maioria dos modelos como o Genie 2 — modelos de mundo, se preferir — pode simular jogos e ambientes 3D, mas com problemas de artefatos, consistência e alucinações. Por exemplo, o simulador de Minecraft da Decart, Oasis, tem baixa resolução e rapidamente “esquece” o layout dos níveis.
O Genie 2, no entanto, pode lembrar partes de uma cena simulada que não estão à vista e renderizá-las com precisão quando se tornam visíveis novamente. (Os modelos da World Labs também podem fazer isso.)
Agora, os jogos criados com o Genie 2 realmente não seriam muito divertidos, já que apagariam seu progresso a cada minuto. Por isso, a DeepMind está posicionando o modelo mais como uma ferramenta de pesquisa e criatividade — uma ferramenta para prototipar “experiências interativas” e avaliar agentes de IA.
“Graças às capacidades de generalização fora da distribuição do Genie 2, artes conceituais e desenhos podem ser transformados em ambientes totalmente interativos”, escreveu a DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversos para os agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes não viram durante o treinamento.”

A DeepMind afirma que, embora o Genie 2 esteja em estágios iniciais, o laboratório acredita que será um componente chave no desenvolvimento de agentes de IA do futuro.
Criativos podem ter sentimentos mistos — especialmente aqueles da indústria de videogames. Uma recente investigação da Wired constatou que grandes empresas como a Activision Blizzard, que demitiu muitos trabalhadores, estão usando IA para cortar custos, aumentar a produtividade e compensar a evasão.
O Google tem investido cada vez mais recursos na pesquisa de modelos de mundo, que promete ser a próxima grande coisa em IA generativa. Em outubro, a DeepMind contratou Tim Brooks, que estava à frente do desenvolvimento do gerador de vídeo Sora da OpenAI, para trabalhar em tecnologias de geração de vídeo e simuladores de mundo. E dois anos atrás, o laboratório contratou Tim Rocktäschel, mais conhecido por seus experimentos de “abertura” com jogos como Nethack, da Meta.
Conteúdo relacionado
Runway, conhecida por seus modelos de IA para geração de vídeo, arrecada R$ 308 milhões.
[the_ad id="145565"] Runway, uma startup que desenvolve uma variedade de modelos de IA generativa para a produção de mídia, incluindo modelos de geração de vídeo, levantou US$…
Plataforma de IA de Voz Phonic recebe apoio da Lux
[the_ad id="145565"] A qualidade das vozes geradas por IA é suficientemente boa para criar audiolivros e podcasts, ler artigos em voz alta e oferecer suporte ao cliente básico.…
Como Claude Pensa? A Busca da Anthropic para Desvendar a Caixa-preta da IA
[the_ad id="145565"] Modelos de linguagem de grande escala (LLMs) como Claude mudaram a maneira como usamos a tecnologia. Eles alimentam ferramentas como chatbots, ajudam a…