O gerador de vídeo do Google está chegando a mais alguns clientes — clientes do Google Cloud, para ser mais preciso.
Na terça-feira, o Google anunciou que o Veo, seu modelo de IA capaz de gerar clipes de vídeo curtos a partir de imagens e comandos, estará disponível em pré-visualização privada para clientes que usam o Vertex AI, a plataforma de desenvolvimento de IA do Google Cloud.
O Google afirma que o lançamento permitirá que um cliente, o Quora, leve o Veo para sua plataforma de chatbot Poe, e outro, a Mondelez International, proprietária da Oreo, crie conteúdo de marketing com seus parceiros de agência.
“Criamos o Poe para democratizar o acesso aos melhores modelos de IA generativa do mundo”, disse Spencer Chan, líder de produto do Poe, em um comunicado. “Através de parcerias com líderes como o Google, estamos expandindo as possibilidades criativas em todas as modalidades de IA.”
Gerador de destaque
Lançado em abril, o Veo pode gerar clipes em 1080p de animais, objetos e pessoas com até seis segundos de duração, a 24 ou 30 quadros por segundo. O Google afirma que o Veo é capaz de capturar diferentes estilos visuais e cinematográficos, incluindo tomadas de paisagens e time-lapses, além de fazer edições em filmagens já geradas.
Por que a longa espera pelo API? “Prontidão para empresas”, diz Warren Barkley, diretor sênior de gerenciamento de produtos do Google Cloud.
“Desde que o Veo foi anunciado, nossas equipes aprimoraram, endureceram e melhoraram o modelo para clientes empresariais no Vertex AI”, disse ele. “A partir de hoje, você pode criar vídeos em alta definição em 720p, nas proporções 16:9 (landscape) ou 9:16 (portrait). Assim como melhoramos as capacidades de outros modelos, como o Gemini no Vertex AI, continuaremos a fazer isso pelo Veo.”
O Veo compreende bem os efeitos visuais a partir de comandos, diz o Google (pense em legendas como “explosão enorme”), e tem alguma compreensão da física, incluindo dinâmica de fluidos. O modelo também suporta edição com máscara para alterações em regiões específicas de um vídeo, e é tecnicamente capaz de juntar filmagens em projetos mais longos.
Dessa forma, o Veo é competitivo com os modelos líderes de geração de vídeo atuais — não apenas o Sora da OpenAI, mas modelos da Adobe, Runway, Luma, Meta e outros.
Isso não quer dizer que o Veo é perfeito. Refletindo as limitações da IA atual, objetos nos vídeos do Veo desaparecem e reaparecem sem muita explicação ou consistência. E o Veo muitas vezes erra suas noções de física. Por exemplo, carros irão inexplicavelmente e impossivelmente voltar para trás em uma fração de segundo.
Treinamento e riscos
O Veo foi treinado com uma grande quantidade de filmagens. Essa é geralmente a forma como funcionam os modelos de IA generativa: Fornecidos constantemente com exemplos de algum tipo de dado, os modelos captam padrões nos dados que permitem gerar novos dados — vídeos, no caso do Veo.
O Google, assim como muitos de seus concorrentes de IA, não revela exatamente de onde obtém os dados para treinar seus modelos generativos. Questionado sobre o Veo especificamente, Barkley disse apenas que o modelo “pode” ter sido treinado com “algum” conteúdo do YouTube “de acordo com o nosso acordo com os criadores do YouTube.” (A empresa mãe do Google, Alphabet, é proprietária do YouTube.)
“O Veo foi treinado em uma variedade de conjuntos de dados de descrição de vídeo de alta qualidade que são rigorosamente selecionados para segurança e proteção”, acrescentou ele. “Os modelos fundamentais do Google são treinados principalmente em fontes disponíveis publicamente.”
Uma reportagem do The New York Times em abril revelou que o Google ampliou seus termos de serviço no ano passado em parte para permitir que a empresa aproveite mais dados para treinar seus modelos de IA. Sob os antigos termos de serviço, não estava claro se o Google poderia usar dados do YouTube para construir produtos além da plataforma de vídeo. Não é assim sob os novos termos, que afrouxam consideravelmente as regras.
Embora o Google ofereça ferramentas que permitem que os administradores da web impeçam os robôs da empresa de coletar dados de treinamento de seus sites, não oferece um mecanismo para que os criadores removam suas obras de seus conjuntos de treinamento existentes. O Google mantém que treinar modelos usando dados disponíveis publicamente é uso justo, o que significa que a empresa acredita que não é obrigada a pedir permissão ou compensar os proprietários dos dados. (No entanto, o Google afirma que não usa dados de clientes para treinar seus modelos.)
Graças à forma como os modelos gerativos funcionam quando treinados, eles apresentam certos riscos, como regurgitação, que se refere à geração por um modelo de uma cópia espelhada dos dados de treinamento. Ferramentas como a Runway foram encontradas gerando imagens substancialmente semelhantes às de vídeos protegidos por direitos autorais, criando um possível campo minado legal para os usuários das ferramentas.
A solução do Google são filtros a nível de comando para o Veo, incluindo para conteúdos violentos e explícitos. Caso esses filtros falhem, a empresa afirma que sua política de indenização fornece defesa para usuários elegíveis do Veo contra alegações de infração de direitos autorais.
“Planejamos indenizar saídas do Veo no Vertex AI quando ele se tornar amplamente disponível,” disse Barkley.
Veo em todos os lugares
Nos últimos meses, o Google tem lentamente integrado o Veo em mais de seus aplicativos e serviços enquanto trabalha para aprimorar o modelo.
Em maio, o Google trouxe o Veo para o Google Labs, seu programa de acesso antecipado, para testadores selecionados. E em setembro, o Google anunciou uma integração do Veo para o YouTube Shorts, o formato de vídeo de formato curto do YouTube, para permitir que criadores gerem fundos e clipes de vídeo de seis segundos.
O que dizer dos riscos de deepfake em tudo isso, você pode estar se perguntando? O Google diz que está usando sua tecnologia de marca d’água proprietária, SynthID, para inserir marcadores invisíveis nos quadros gerados pelo Veo. Admitidamente, o SynthID não é infalível contra edições e o Google não disponibilizou a peça de ID de conteúdo para terceiros.
Esses podem ser pontos irrelevantes se o Veo não ganhar tração significativa. No que diz respeito às parcerias, o Google cedeu terreno para rivais de IA generativa, que se movimentaram rapidamente para conquistar produtores, estúdios e agências criativas com suas ferramentas. A Runway firmou recentemente um acordo com a Lionsgate para treinar um modelo personalizado com o catálogo de filmes do estúdio, e a OpenAI se uniu a marcas e diretores independentes para mostrar o potencial do Sora.
Em determinado momento, o Google afirmou que estava explorando as aplicações do Veo em colaboração com artistas, incluindo Donald Glover (também conhecido como Childish Gambino). A empresa não forneceu atualizações sobre esses esforços de alcance hoje.
A proposta do Google para o Veo — uma forma de reduzir custos e iterar rapidamente no conteúdo de vídeo — corre o risco de alienar os criativos. Um estudo de 2024 encomendado pela Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, estima que mais de 100.000 empregos na indústria de cinema, televisão e animação nos EUA serão impactados pela IA até 2026.
Isso pode explicar a abordagem cautelosa e “lenta e constante” do Google. Ao ser questionado, Barkley não forneceu um cronograma para a disponibilidade geral do Veo no Vertex, nem confirmou quando o Veo poderia chegar a outras plataformas e serviços do Google.
“Geralmente, lançamos produtos em pré-visualização primeiro, pois isso nos permite obter feedback do mundo real de um grupo selecionado de nossos clientes empresariais antes que se tornem amplamente disponíveis para uso geral,” disse ele. “Isso ajuda a melhorar a funcionalidade e garantir que o produto atenda às necessidades de nossos clientes.”
Em um anúncio relacionado hoje, o Google disse que seu gerador de imagem principal, Imagen 3, agora está disponível para todos os clientes do Vertex AI sem lista de espera. Ele ganhou novos recursos de personalização e edição de imagem — mas estes estão temporariamente sob uma lista de espera separada.
A TechCrunch tem um boletim informativo focado em IA!Inscreva-se aqui para recebê-lo em sua caixa de entrada toda quarta-feira.
Conteúdo relacionado
CEO da Hugging Face expressa preocupações sobre modelos de IA open source chineses.
[the_ad id="145565"] Os modelos de IA de código aberto da China têm chamado a atenção ultimamente pelo seu desempenho robusto em diversas tarefas de IA, como programação e…
Envelhecer de Forma Surreal
[the_ad id="145565"] Katsukokoiso.AI é um projeto do fotógrafo profissional Eugenio Marongiu, um testador alfa do modelo de texto-para-vídeo Sora da OpenAI. Marongiu utilizou…
AWS re:Invent 2024: O que esperar e como assistir ao maior evento do ano da Amazon
[the_ad id="145565"] A maior conferência do ano da Amazon Web Services (AWS) começou, e tudo indica que será um evento cheio de novidades. O AWS re:Invent 2024 teve início em…