A interpolação de quadros de vídeo (VFI) é um problema em aberto na pesquisa de vídeo generativo. O desafio consiste em gerar quadros intermediários entre dois quadros existentes em uma sequência de vídeo.
Clique para reproduzir. O framework FILM, uma colaboração entre o Google e a Universidade de Washington, propôs um método eficaz de interpolação de quadros que permanece popular em esferas de entusiastas e profissionais. À esquerda, podemos ver os dois quadros separados e distintos sobrepostos; no meio, o ‘quadro final’; e à direita, a síntese final entre os quadros. Fontes: https://film-net.github.io/ e https://arxiv.org/pdf/2202.04901
De maneira geral, essa técnica remonta a mais de um século e tem sido utilizada na animação tradicional desde então. Nesse contexto, ‘quadros chave’ seriam gerados por um artista principal de animação, enquanto o trabalho de ‘tweening’, ou preenchimento dos quadros intermediários, seria realizado por outros colaboradores, como uma tarefa mais simples.
Antes do surgimento da inteligência artificial generativa, a interpolação de quadros era usada em projetos como estimativa de fluxo intermediário em tempo real (RIFE), interpolação de quadros de vídeo ciente de profundidade (DAIN) e a interpolação de quadros para grandes movimentos do Google (FILM – veja acima) para aumentar a taxa de quadros de um vídeo existente ou possibilitar efeitos de câmera lenta gerados artificialmente. Isso é realizado separando os quadros existentes de um clipe e gerando quadros intermediários estimados.
VFI também é utilizado no desenvolvimento de codecs de vídeo melhores e, de forma mais geral, em sistemas baseados em fluxo óptico (incluindo sistemas generativos), que utilizam conhecimento avançado de quadros chave que virão para otimizar e moldar o conteúdo intersticial que os precede.
Quadros Finais em Sistemas de Vídeo Generativos
Sistemas generativos modernos como Luma e Kling permitem que os usuários especifiquem um quadro inicial e um quadro final, e podem realizar essa tarefa analisando pontos chave nas duas imagens e estimando uma trajetória entre elas.
Como podemos ver nos exemplos abaixo, fornecer um ‘quadro final’ ajuda a manter aspectos como a identidade, mesmo que os resultados não sejam perfeitos (particularmente em movimentos grandes).
Clique para reproduzir. Kling é um dos muitos geradores de vídeo, incluindo Runway e Luma, que permitem ao usuário especificar um quadro final. Na maioria dos casos, movimentos mínimos resultarão nos resultados mais realistas e com menos falhas. Fonte: https://www.youtube.com/watch?v=8oylqODAaH8
No exemplo acima, a identidade da pessoa é consistente entre os dois quadros chave fornecidos pelo usuário, levando a uma geração de vídeo relativamente consistente.
Quando apenas o quadro inicial é fornecido, geralmente a janela de atenção dos sistemas generativos não é grande o suficiente para ‘lembrar’ como a pessoa parecia no início do vídeo. Em vez disso, a identidade tende a mudar a cada quadro, até que toda semelhança seja perdida. No exemplo abaixo, uma imagem inicial foi carregada, e o movimento da pessoa foi orientado por um prompt textual:
Clique para reproduzir. Sem um quadro final, Kling só tem um pequeno conjunto de quadros imediatamente anteriores para guiar a geração dos próximos quadros. Em casos onde qualquer movimento significativo é necessário, essa atrofia de identidade torna-se severa.
Podemos ver que a semelhança do ator não é resiliente às instruções, uma vez que o sistema generativo não sabe como ele pareceria se estivesse sorrindo, e ele não está sorrindo na imagem inicial (a única referência disponível).
A maioria dos clipes gerados viralmente é cuidadosamente editada para desviar a atenção dessas deficiências. No entanto, o progresso de sistemas generativos de vídeo temporalmente consistentes pode depender de novos desenvolvimentos do setor de pesquisa em relação à interpolação de quadros, uma vez que a única alternativa possível é uma dependência de CGI tradicional como vídeo de guia, e mesmo nesse caso, a consistência de textura e iluminação atualmente é difícil de alcançar.
Além disso, a natureza lentamente iterativa de derivar um novo quadro de um pequeno grupo de quadros recentes torna muito difícil alcançar movimentos grandes e ousados. Isso ocorre porque um objeto que se move rapidamente através de um quadro pode transitar de um lado para o outro no espaço de um único quadro, ao contrário dos movimentos mais graduais nos quais o sistema provavelmente foi treinado.
Da mesma forma, uma mudança significativa e ousada de pose pode levar não apenas a um deslocamento de identidade, mas a incongruências vívidas:
Clique para reproduzir. Neste exemplo do Luma, o movimento solicitado não parece estar bem representado nos dados de treinamento.
Framer
Isso nos leva a um interessante artigo recente da China, que afirma ter alcançado um novo estado da arte em interpolação de quadros autênticos – e que é o primeiro de seu tipo a oferecer interação do usuário baseada em arrasto.
Framer permite ao usuário direcionar o movimento usando uma interface intuitiva de arrasto, embora também tenha um modo ‘automático’. Fonte: https://www.youtube.com/watch?v=4MPGKgn7jRc
Aplicações centradas em arrasto tornaram-se frequentes na literatura ultimamente, à medida que o setor de pesquisa luta para fornecer instrumentações para sistemas generativos que não são baseados nos resultados relativamente rudimentares obtidos por prompts textuais.
O novo sistema, intitulado Framer, pode não apenas seguir o arrasto orientado pelo usuário, mas também possui um modo ‘piloto automático’ mais convencional. Além de tweening convencional, o sistema é capaz de produzir simulações de time-lapse, bem como morfismos e novas visões da imagem de entrada.
No que diz respeito à produção de novas visões, o Framer cruza um pouco o território dos Campos de Radiância Neural (NeRF) – embora exija apenas duas imagens, enquanto o NeRF geralmente requer seis ou mais imagens de entrada.
Em testes, o Framer, que é baseado no modelo gerativo de difusão latente Stable Video Diffusion da Stability.ai, conseguiu superar abordagens rivais aproximadas em um estudo de usuários.
No momento em que escrevo, o código deve ser liberado no GitHub. Amostras de vídeo (das quais as imagens acima foram derivadas) estão disponíveis no site do projeto, e os pesquisadores também lançaram um vídeo no YouTube.
O novo artigo intitula-se Framer: Interpolação de Quadros Interativa, e vem de nove pesquisadores da Universidade de Zhejiang e do Alibaba-backed Ant Group.
Método
O Framer utiliza interpolação baseada em pontos chave em qualquer um de seus dois modos, onde a imagem de entrada é avaliada quanto à topologia básica, e ‘pontos móveis’ são atribuídos onde necessário. Esses pontos são equivalentes a pontos de referência facial em sistemas baseados em ID, mas se generalizam para qualquer superfície.
Os pesquisadores ajustaram o Stable Video Diffusion (SVD) no conjunto de dados OpenVid-1M, adicionando uma capacidade adicional de síntese do último quadro. Isso facilita um mecanismo de controle de trajetória (canto superior direito na imagem de esboço abaixo) que pode avaliar um caminho em direção ao quadro final (ou voltar a partir dele).
Com relação à adição de condicionamento do último quadro, os autores afirmam:
‘Para preservar o prior visual do SVD pré-treinado, seguimos o paradigma de condicionamento do SVD e injetamos condições do quadro final no espaço latente e no espaço semântico, respectivamente.’
‘Especificamente, concatenamos a característica latente codificada em VAE do primeiro [quadro] com a latente ruidosa do primeiro quadro, como foi feito no SVD. Adicionalmente, concatenamos a característica latente do último quadro, zn, com a latente ruidosa do quadro final, considerando que as condições e os latentes ruidosos correspondentes estão espacialmente alinhados.’
‘Além disso, extraímos a incorporação da imagem CLIP dos primeiros e últimos quadros separadamente e as concatenamos para injeção de características de atenção cruzada.’
Para a funcionalidade baseada em arrasto, o módulo de trajetória utiliza a estrutura CoTracker liderada pela Meta Ai, que avalia profusos caminhos possíveis à frente. Esses caminhos são reduzidos a entre 1-10 possíveis trajetórias.
As coordenadas de pontos obtidas são então transformadas por uma metodologia inspirada nas arquiteturas DragNUWA e DragAnything. Isso obtém um mapa de calor gaussiano, que individua as áreas-alvo para movimento.
Subsequentemente, os dados são fornecidos aos mecanismos de condicionamento do ControlNet, um sistema de conformidade auxiliar originalmente projetado para o Stable Diffusion, e desde então adaptado para outras arquiteturas.
Para o modo piloto automático, a correspondência de características é inicialmente realizada via SIFT, que interpreta uma trajetória que pode ser passada para um mecanismo de atualização automática inspirado em DragGAN e DragDiffusion.
Dados e Testes
Para o ajuste fino do Framer, os blocos de atenção espacial e os blocos residuais foram congelados, e apenas as camadas de atenção temporal e os blocos residuais foram afetados.
O modelo foi treinado por 10.000 iterações sob AdamW, com uma taxa de aprendizado de 1e-4 e um tamanho de lote de 16. O treinamento ocorreu em 16 GPUs NVIDIA A100.
Uma vez que abordagens anteriores ao problema não oferecem edição baseada em arrasto, os pesquisadores optaram por comparar o modo piloto automático do Framer com a funcionalidade padrão de ofertas mais antigas.
Os frameworks testados para a categoria de sistemas de geração de vídeo baseados em difusão atuais foram LDMVFI; Dynamic Crafter; e SVDKFI. Para sistemas de vídeo ‘tradicionais’, os frameworks rivais foram AMT; RIFE; FLAVR; e o mencionado FILM.
Além do estudo de usuários, testes foram realizados nas bases de dados DAVIS e UCF101.
Testes qualitativos podem ser avaliados apenas pelas faculdades objetivas da equipe de pesquisa e por estudos de usuários. No entanto, o artigo observa que métricas tradicionais quantitativas são amplamente inadequadas para a proposta em questão:
‘Métricas de [reconstrução] como PSNR, SSIM e LPIPS falham em capturar a qualidade dos quadros interpolados com precisão, uma vez que penalizam outros resultados de interpolação plausíveis que não estão alinhados por pixel com o vídeo original.’
‘Enquanto métricas de geração como FID oferecem alguma melhoria, ainda assim falham, pois não consideram a consistência temporal e avaliam quadros isoladamente.’
Apesar disso, os pesquisadores realizaram testes qualitativos com várias métricas populares:
Os autores observam que, apesar de terem as probabilidades contra eles, o Framer ainda alcança a melhor pontuação FVD entre os métodos testados.
Abaixo estão os resultados de amostra do artigo para uma comparação qualitativa:
Os autores comentam:
‘[Nosso] método produz texturas significativamente mais claras e movimento natural em comparação com técnicas de interpolação existentes. Ele se sai especialmente bem em cenários com diferenças substanciais entre os quadros de entrada, onde métodos tradicionais costumam falhar em interpolar o conteúdo com precisão.’
‘Comparado a outros métodos baseados em difusão, como LDMVFI e SVDKFI, o Framer demonstra superior adaptabilidade a casos desafiadores e oferece melhor controle.’
Para o estudo de usuários, os pesquisadores reuniram 20 participantes, que avaliaram 100 resultados de vídeo embaralhados aleatoriamente dos diversos métodos testados. Assim, 1000 avaliações foram obtidas, avaliando as ofertas mais ‘realistas’:
Como pode ser visto no gráfico acima, os usuários favoreceram de forma esmagadora os resultados do Framer.
O vídeo de acompanhamento do projeto esboça alguns dos outros usos potenciais para o Framer, incluindo morfismo e tweening de animação – onde todo o conceito começou.
Conclusão
É difícil subestimar o quão importante esse desafio é atualmente para a geração de vídeo baseada em IA. Até agora, soluções mais antigas como FILM e o (não-AI) EbSynth têm sido utilizadas, tanto por comunidades amadoras quanto profissionais, para tweening entre quadros; mas essas soluções têm limitações notáveis.
Devido à curadoria desonesta dos vídeos exemplo oficiais para novos frameworks T2V, existe uma ampla percepção pública equivocada de que sistemas de aprendizado de máquina podem inferir com precisão a geometria em movimento sem recorrer a mecanismos de orientação, como modelos morfáveis 3D (3DMMs) ou outras abordagens auxiliares, como LoRAs.
Para ser honesto, tweening em si, mesmo se pudesse ser executado perfeitamente, só constitui uma ‘gambiarra’ ou truque para esse problema. No entanto, dado que muitas vezes é mais fácil produzir duas imagens enquadradas do que efetuar uma orientação via prompts textuais ou a gama atual de alternativas, é bom ver um progresso iterativo em uma versão baseada em IA desse método mais antigo.
Publicado pela primeira vez na terça-feira, 29 de outubro de 2024
Conteúdo relacionado
Sam Altman sempre vencerá a disputa do conselho da OpenAI em uma simulação de agente de IA?
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba……
O recurso Dream Screen do YouTube Shorts agora pode gerar fundos de vídeo em IA
[the_ad id="145565"] O YouTube anunciou na quinta-feira que seu recurso Dream Screen para Shorts agora permite criar fundos de vídeo gerados por IA. Até agora, o Dream Screen…
Sistema Agent Graph da xpander.ai torna os agentes de IA 4 vezes mais confiáveis.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para receber as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de ponta. Saiba Mais…