OmniHuman: A nova IA da ByteDance cria vídeos realistas a partir de uma única foto.

Participe de nossos informativos diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder na indústria. Saiba Mais

Pesquisadores da ByteDance desenvolveram um sistema de IA que transforma fotografias únicas em vídeos realistas de pessoas falando, cantando e se movendo de forma natural — um avanço que pode remodelar o entretenimento digital e as comunicações.

O novo sistema, chamado OmniHuman, gera vídeos em corpo inteiro que mostram pessoas gesticulando e se movendo de maneiras que combinam com suas falas, superando modelos de IA anteriores que conseguiam apenas animar rostos ou partes superiores do corpo.

Como o OmniHuman utiliza 18.700 horas de dados de treinamento para criar movimentos realistas

“A animação humana de ponta a ponta tem avançado notavelmente nos últimos anos,” escreveram os pesquisadores da ByteDance em um artigo publicado no arXiv. “No entanto, métodos existentes ainda têm dificuldades em escalar como grandes modelos de geração de vídeo geral, limitando seu potencial em aplicações reais,”

A equipe treinou o OmniHuman com mais de 18.700 horas de dados de vídeo humano usando uma abordagem inovadora que combina múltiplos tipos de entradas — texto, áudio e movimentos corporais. Essa estratégia de treinamento “omni-conditions” permite que a IA aprenda com conjuntos de dados muito maiores e mais diversos do que os métodos anteriores.

Avanço na geração de vídeo por IA demonstra movimento corporal completo e gestos naturais

“Nossa principal percepção é que incorporar múltiplos sinais condicionantes, como texto, áudio e pose, durante o treinamento pode reduzir significativamente o desperdício de dados,” explicou a equipe de pesquisa.

A tecnologia representa um avanço significativo na mídia gerada por IA, demonstrando capacidades que variam desde a criação de vídeos de pessoas fazendo discursos até a representação de sujeitos tocando instrumentos musicais. Em testes, o OmniHuman superou sistemas existentes em múltiplos padrões de qualidade.

Gigantes da tecnologia competem para desenvolver sistemas de vídeo por IA de próxima geração

O desenvolvimento surge em meio a uma competição crescente na geração de vídeo por IA, com empresas como Google, Meta e Microsoft buscando tecnologias semelhantes. A conquista da ByteDance poderia dar à sua empresa-mãe, TikTok, uma vantagem nesse campo em rápida evolução.

Especialistas da indústria afirmam que essa tecnologia poderia transformar a produção de entretenimento, a criação de conteúdo educacional e as comunicações digitais. No entanto, também levanta preocupações sobre possíveis abusos na criação de mídia sintética para fins enganosos.

Os pesquisadores apresentarão suas descobertas em uma próxima conferência de visão computacional, embora ainda não tenham especificado quando ou qual será.

Insights diários sobre casos de uso empresarial com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters da VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

OmniHuman: A nova IA da ByteDance cria vídeos realistas a partir de uma única foto.

Como o OmniHuman utiliza 18.700 horas de dados de treinamento para criar movimentos realistas

Avanço na geração de vídeo por IA demonstra movimento corporal completo e gestos naturais

Gigantes da tecnologia competem para desenvolver sistemas de vídeo por IA de próxima geração

Conteúdo relacionado

ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.

Tudo o que você precisa saber sobre o chatbot de IA