Bolt42

Odyssey, uma startup fundada pelos pioneiros em direção autônoma Oliver Cameron e Jeff Hawke, desenvolveu um modelo de IA que permite aos usuários “interagir” com vídeos em streaming.

Disponível na web em uma “demonstração inicial,” o modelo gera e transmite quadros de vídeo a cada 40 milissegundos. Por meio de controles básicos, os espectadores podem explorar áreas dentro de um vídeo, semelhante a um videogame renderizado em 3D.

“Dada a situação atual do mundo, uma ação que se aproxima e um histórico de estados e ações, o modelo tenta prever o próximo estado do mundo,” explica a Odyssey em uma publicação no blog. “Isso é impulsionado por um novo modelo de mundo, que demonstra capacidades como gerar pixels que parecem realistas, manter consistência espacial, aprender ações a partir de vídeos e produzir fluxos de vídeo coerentes por 5 minutos ou mais.”

Várias startups e grandes empresas de tecnologia estão em busca de modelos de mundo, incluindo DeepMind, o influente pesquisador de IA Fei-Fei Li com o World Labs, Microsoft, e Decart. Eles acreditam que os modelos de mundo poderiam um dia ser usados para criar mídias interativas, como jogos e filmes, e executar simulações realistas, como ambientes de treinamento para robôs.

Contudo, os criativos têm sentimentos mistos sobre a tecnologia. Uma investigação recente da Wired descobriu que estúdios de jogos como Activision Blizzard, que demitiu muitos trabalhadores, estão usando IA para cortar custos e combater a perda de mão de obra. E um estudo de 2024 encomendado pela Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, estimou que mais de 100.000 empregos na indústria de filmes, televisão e animação, baseados nos EUA, serão afetados pela IA nos próximos meses.

Por sua parte, a Odyssey se compromete a colaborar com profissionais criativos — e não substituí-los.

“O vídeo interativo… abre a porta para novas formas de entretenimento, onde histórias podem ser geradas e exploradas sob demanda, livres das restrições e custos da produção tradicional,” escreve a empresa em sua postagem no blog. “Com o tempo, acreditamos que tudo que hoje é vídeo — entretenimento, anúncios, educação, treinamento, viagens e mais — evoluirá para vídeo interativo, tudo impulsionado pela Odyssey.”

A demonstração da Odyssey é um pouco áspera nos detalhes, o que a empresa reconhece em sua postagem. Os ambientes que o modelo gera são borrados e distorcidos, e instáveis no sentido de que seus layouts não permanecem os mesmos. Caminhe para frente em uma direção por um tempo ou vire-se, e os arredores podem de repente parecer diferentes.

Mas a empresa promete melhorar rapidamente o modelo, que atualmente pode transmitir vídeo a até 30 quadros por segundo a partir de clusters de GPUs Nvidia H100, com um custo de US$ 1 a US$ 2 por “hora de usuário.”

“Olhando para o futuro, estamos pesquisando representações de mundo mais ricas que capturem dinâmicas de forma muito mais fiel, enquanto aumentamos a estabilidade temporal e a persistência do estado,” escreve a Odyssey em sua postagem. “Em paralelo, estamos expandindo o espaço de ações de movimento para interação com o mundo, aprendendo ações abertas a partir de vídeo em grande escala.”

A Odyssey está adotando uma abordagem diferente de muitos laboratórios de IA na área de modelagem de mundos. Ela projetou um sistema de câmera montado em uma mochila de 360 graus para capturar paisagens do mundo real, que a Odyssey acredita poder servir de base para modelos de maior qualidade do que aqueles treinados apenas em dados disponíveis publicamente.

Até agora, a Odyssey levantou US$ 27 milhões de investidores, incluindo EQT Ventures, GV e Air Street Capital. Ed Catmull, um dos cofundadores da Pixar e ex-presidente dos Estúdios de Animação da Walt Disney, está no conselho da startup.

Em dezembro passado, a Odyssey disse que estava trabalhando em um software que permite aos criadores carregar cenas geradas por seus modelos em ferramentas como Unreal Engine, Blender e Adobe After Effects para que possam ser editadas manualmente.


    4 × 1 =

    Bolt42