A DeepMind, organização de pesquisa em IA do Google, revelou um modelo que pode gerar uma variedade “infinita” de mundos 3D jogáveis.
Chamado Genie 2, o modelo — sucessor do Genie da DeepMind, que foi lançado mais cedo este ano — pode criar uma cena interativa e em tempo real a partir de uma única imagem e descrição de texto (por exemplo, “Um robô humanoide fofo na floresta”). De certa forma, é semelhante aos modelos em desenvolvimento pela empresa World Labs, de Fei-Fei Li, e pela startup israelense Decart.
A DeepMind afirma que o Genie 2 pode gerar uma “vasta diversidade de mundos 3D ricos”, incluindo mundos onde os usuários podem realizar ações como pular e nadar usando mouse ou teclado. Treinado com vídeos, o modelo é capaz de simular interações entre objetos, animações, iluminação, física, reflexões e o comportamento de “NPCs”.

Muitas das simulações do Genie 2 se assemelham a jogos AAA — e a razão pode ser que os dados de treinamento do modelo contenham playthroughs de títulos populares. No entanto, a DeepMind, como muitos laboratórios de IA, não revela muitos detalhes sobre seus métodos de coleta de dados, por razões competitivas ou outras.
Fica a dúvida sobre as implicações de propriedade intelectual. A DeepMind — sendo uma subsidiária do Google — tem acesso irrestrito ao YouTube, e o Google já insinuou anteriormente que seus termos de serviço dão permissão para usar vídeos do YouTube para treinamento de modelos. Mas o Genie 2 está, essencialmente, criando cópias não autorizadas dos videogames que “assistiu”? Isso cabe aos tribunais decidir.
A DeepMind afirma que o Genie 2 pode gerar mundos consistentes com diferentes perspectivas, como vistas em primeira pessoa e isométricas, por até um minuto, sendo que a maioria dura de 10 a 20 segundos.
“O Genie 2 responde de forma inteligente às ações tomadas ao pressionar teclas no teclado, identificando o personagem e movendo-o corretamente”, escreveu a DeepMind em um post de blog. “Por exemplo, nosso modelo [pode] entender que as teclas de seta devem mover um robô e não árvores ou nuvens.”

A maioria dos modelos como o Genie 2 — modelos de mundo, se preferir — pode simular jogos e ambientes 3D, mas com problemas de artefatos, consistência e alucinações. Por exemplo, o simulador de Minecraft da Decart, Oasis, tem baixa resolução e rapidamente “esquece” o layout dos níveis.
O Genie 2, no entanto, pode lembrar partes de uma cena simulada que não estão à vista e renderizá-las com precisão quando se tornam visíveis novamente. (Os modelos da World Labs também podem fazer isso.)
Agora, os jogos criados com o Genie 2 realmente não seriam muito divertidos, já que apagariam seu progresso a cada minuto. Por isso, a DeepMind está posicionando o modelo mais como uma ferramenta de pesquisa e criatividade — uma ferramenta para prototipar “experiências interativas” e avaliar agentes de IA.
“Graças às capacidades de generalização fora da distribuição do Genie 2, artes conceituais e desenhos podem ser transformados em ambientes totalmente interativos”, escreveu a DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversos para os agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes não viram durante o treinamento.”

A DeepMind afirma que, embora o Genie 2 esteja em estágios iniciais, o laboratório acredita que será um componente chave no desenvolvimento de agentes de IA do futuro.
Criativos podem ter sentimentos mistos — especialmente aqueles da indústria de videogames. Uma recente investigação da Wired constatou que grandes empresas como a Activision Blizzard, que demitiu muitos trabalhadores, estão usando IA para cortar custos, aumentar a produtividade e compensar a evasão.
O Google tem investido cada vez mais recursos na pesquisa de modelos de mundo, que promete ser a próxima grande coisa em IA generativa. Em outubro, a DeepMind contratou Tim Brooks, que estava à frente do desenvolvimento do gerador de vídeo Sora da OpenAI, para trabalhar em tecnologias de geração de vídeo e simuladores de mundo. E dois anos atrás, o laboratório contratou Tim Rocktäschel, mais conhecido por seus experimentos de “abertura” com jogos como Nethack, da Meta.
Conteúdo relacionado
Um Avanço Notável em Vídeos de IA Dirigida por Humanos
[the_ad id="145565"] Aviso: A página do projeto para este trabalho contém 33 vídeos em alta resolução com reprodução automática totalizando meio gigabyte, o que desestabilizou…
Midjourney lança a V7, seu primeiro novo modelo de imagem com IA em quase um ano.
[the_ad id="145565"] Midjourney, um dos primeiros geradores de imagens baseados em IA na web, lançou seu primeiro novo modelo de imagem em IA em quase um ano. Denominado V7, o…
Devin, o agente de IA para programação viral, lança um novo plano pay-as-you-go
[the_ad id="145565"] A Cognition, a startup por trás da ferramenta viral de programação AI Devin, lançou um novo plano de baixo custo para incentivar inscrições. Quando a…