O Veo 3 pode gerar vídeos — e trilhas sonoras para acompanhá-los.

O mais recente modelo de IA para geração de vídeos do Google, Veo 3, pode criar áudio para acompanhar os clipes que gera.

Na terça-feira, durante a conferência de desenvolvedores Google I/O 2025, o Google revelou o Veo 3, que a empresa afirma ser capaz de gerar efeitos sonoros, ruídos de fundo e até diálogos para acompanhar os vídeos que cria. O Veo 3 também melhora em relação ao seu antecessor, Veo 2, em termos de qualidade do material que pode gerar, segundo o Google.

O Veo 3 está disponível a partir de terça-feira no aplicativo de chatbot Gemini do Google para assinantes do plano AI Ultra de US$ 249,99 por mês, onde pode ser acionado com texto ou uma imagem.

“Pela primeira vez, estamos saindo da era silenciosa da geração de vídeos,” disse Demis Hassabis, CEO da Google DeepMind, a divisão de P&D de IA do Google, durante uma coletiva de imprensa. “[Você pode dar ao Veo 3] um prompt descrevendo personagens e um ambiente, e sugerir diálogos com uma descrição de como você quer que soe.”

A ampla disponibilidade de ferramentas para construir geradores de vídeo levou a uma explosão de provedores, tornando o espaço cada vez mais saturado. Startups como Runway, Lightricks, Genmo, Pika, Higgsfield, Kling, e Luma, além de gigantes da tecnologia como OpenAI e Alibaba, estão lançando modelos rapidamente. Em muitos casos, pouco distingue um modelo do outro.

A produção de áudio pode se tornar um grande diferencial para o Veo 3, se o Google cumprir suas promessas. Ferramentas de geração de som impulsionadas por IA não são novidade, assim como modelos para criar vídeo efeitos sonoros para vídeos. Mas o Veo 3, de maneira única, pode entender os pixels brutos de seus vídeos e sincronizar sons gerados com clipes automaticamente, segundo o Google.

Aqui está um clipe de amostra do modelo:

O Veo 3 foi provavelmente possibilitado pelo trabalho anterior da DeepMind em IA “de vídeo para áudio”. Em junho passado, a DeepMind revelou que estava desenvolvendo tecnologia de IA para gerar trilhas sonoras para vídeos ao treinar um modelo com uma combinação de sons e transcrições de diálogos, além de clipes de vídeo.

A DeepMind não revela exatamente onde obteve o conteúdo para treinar o Veo 3, mas o YouTube é uma possibilidade forte. O Google é dono do YouTube, e a DeepMind já disse anteriormente ao TechCrunch que modelos do Google como o Veo “podem” ser treinados com algum material do YouTube.

Para mitigar o risco de deepfakes, a DeepMind afirma que está utilizando sua tecnologia de marcação d’água proprietária, SynthID, para inserir marcadores invisíveis nas frames geradas pelo Veo 3.

Enquanto empresas como o Google promovem o Veo 3 como uma poderosa ferramenta criativa, muitos artistas estão compreensivelmente céticos em relação a elas — pois ameaçam desestabilizar indústrias inteiras. Um estudo de 2024 encomendado pela Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, estima que mais de 100.000 empregos nos setores de filme, televisão e animação nos EUA serão impactados pela IA até 2026.

O Google também lançou hoje novas capacidades para o Veo 2, incluindo um recurso que permite aos usuários fornecer imagens de personagens, cenas, objetos e estilos para melhor consistência. O mais recente Veo 2 pode entender movimentos de câmera, como rotações, dolly e zoom, e permite que os usuários adicionem ou removam objetos de vídeos ou ampliem os quadros de clipes para, por exemplo, transformá-los de retrato para paisagem.

O Google afirma que todas essas novas capacidades do Veo 2 estarão disponíveis em sua plataforma Vertex AI API nas próximas semanas.