Bolt42

Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais


Há alguns anos, não existia um “modelo de vídeo de IA generativa”.

Hoje, existem dezenas, incluindo muitos capazes de renderizar vídeos em ultra-alta definição e ultra-realistas, de nível cinematográfico, em segundos a partir de prompts de texto, ou imagens e clipes de vídeo já existentes. Se você leu a VentureBeat nos últimos meses, sem dúvida encontrou artigos sobre esses modelos e as empresas por trás deles, desde o Gen-3 da Runway até o Veo 2 do Google, passando pelo Sora da OpenAI, que finalmente está disponível, além da Luma AI, Pika e dos startups chineses Kling e Hailuo. Até mesmo Alibaba e uma startup chamada Genmo ofereceram modelos de vídeo de código aberto.

Esses modelos já foram utilizados para criar partes de grandes blockbusters, desde Tudo, em Todo Lugar, ao Mesmo Tempo até True Detective: Night Country da HBO, além de clipes de vídeo e comerciais de TV da Toys R’ Us e da Coca-Cola. Porém, apesar da rápida adoção da IA por Hollywood e cineastas, ainda há uma grande preocupação em potencial: questões de direitos autorais.

Pelo que podemos inferir, dado que a maioria das startups de modelos de vídeo de IA não compartilha publicamente detalhes precisos sobre seus dados de treinamento, a maioria é treinada em vastas quantidades de vídeos carregados na web ou coletados de outras fontes de arquivo, incluindo aqueles com direitos autorais cujos proprietários podem ou não ter concedido permissão expressa às empresas de vídeo de IA para treinar com eles. De fato, a Runway está entre as empresas enfrentando uma ação coletiva (que ainda está passando pelos tribunais) sobre essa questão, e a Nvidia supostamente raspou uma enorme quantidade de vídeos do YouTube para esse propósito. O debate continua sobre se a raspagem de dados, incluindo vídeos, constitui uso justo e transformador.

Mas agora há uma nova alternativa para aqueles preocupados com os direitos autorais e que não desejam usar modelos com questões a serem esclarecidas. Uma startup chamada Moonvalley — fundada por ex-membros da Google DeepMind e pesquisadores da Meta, Microsoft e TikTok, entre outros — lançou o Marey, um modelo de vídeo gerativo de IA projetado para estúdios de Hollywood, cineastas e marcas corporativas. Posicionado como um modelo de vídeo de IA fundacional “limpo” de última geração, o Marey é treinado exclusivamente com dados próprios e licenciados, oferecendo uma alternativa ética aos modelos de IA desenvolvidos usando conteúdo raspado.

“As pessoas diziam que não era tecnicamente viável construir um modelo de vídeo de IA de ponta sem usar dados raspados,” disse o CEO e cofundador da Moonvalley, Naeem Talukdar, em uma recente entrevista por vídeo com a VentureBeat. “Nós provamos o contrário.”

O Marey, disponível agora em uma lista de espera exclusivamente por convite, se junta ao modelo de vídeo Firefly da Adobe, que esse fornecedor de software estabelecido afirma também ser de nível empresarial — tendo sido treinado apenas com dados licenciados e dados do Adobe Stock (para desgosto de alguns contribuintes) — e oferece indenização às empresas que o utilizam. A Moonvalley também fornece indenização sobre a cláusula 7 deste documento, afirmando que vai defender seus clientes a suas próprias custas.

A Moonvalley espera que essas características tornem o Marey atraente para grandes estúdios — mesmo enquanto outras, como a Runway, fazem negócios com eles — e para cineastas, em meio à infinidade e à crescente gama de novas opções de criação de vídeo com IA.

Mais vídeo de IA “ético”?

O Marey é o resultado de uma colaboração entre a Moonvalley e a Asteria, um estúdio de cinema e animação de IA liderado por artistas. O modelo é construído para ajudar em vez de substituir profissionais criativos, oferecendo aos cineastas novas ferramentas para a produção de vídeo impulsionada por IA enquanto mantém os padrões tradicionais da indústria.

“Nossa convicção era que você não conseguiria uma adoção mainstream nesta indústria a menos que fizesse isso com a indústria,” disse Talukdar. “A indústria tem sido clara que, para que eles realmente usem esses modelos, precisamos descobrir como construir um modelo limpo. E até hoje, a ideia predominante era que não podíamos fazê-lo.”

Em vez de raspar a internet em busca de conteúdo, a Moonvalley construiu relacionamentos diretos com criadores para licenciar suas filmagens. A empresa levou vários meses para estabelecer essas parcerias, garantindo que todos os dados usados para treinamento fossem adquiridos legalmente e totalmente licenciados.

A estratégia de licenciamento da Moonvalley também é projetada para apoiar criadores de conteúdo compensando-os por suas contribuições.

“A maioria das nossas relações está vindo por iniciativa agora que as pessoas começaram a ouvir sobre o que estamos fazendo,” disse Talukdar. “Para criadores de cidades pequenas, muitas de suas filmagens apenas ficam paradas. Queremos ajudá-los a monetizá-las, e queremos fazer modelos focados nos artistas. Isso acaba se tornando uma relação muito boa.”

Talukdar disse à VentureBeat que, embora a empresa ainda esteja avaliando e revisando seus modelos de compensação, geralmente compensa criadores com base na duração de suas filmagens, pagando uma taxa por hora ou minuto em contratos de licenciamento de termo fixo (por exemplo, 12 ou quatro meses). Isso permite pagamentos recorrentes potenciais se o conteúdo continuar sendo utilizado.

O objetivo da empresa é tornar a produção de vídeo de alto nível mais acessível e econômica, permitindo que cineastas, estúdios e anunciantes explorem a narrativa gerada por IA sem preocupações jurídicas ou éticas.

Mais controle cinematográfico — além de prompts de texto, imagens e direções de câmera

Talukdar explicou que a Moonvalley adotou uma abordagem diferente com seu modelo de vídeo de IA Marey em comparação com modelos de vídeo de IA existentes, focando em produção de nível profissional em vez de aplicações para consumidores.

“A maioria das empresas de vídeo generativo hoje estão mais focadas no consumidor,” disse ele. “Elas constroem modelos simples onde você faz um prompt em um chatbot, gera alguns clipes e adiciona efeitos legais. Nosso foco é diferente: qual é a tecnologia necessária para estúdios de Hollywood? O que grandes marcas precisam para fazer comerciais no Super Bowl?”

O Marey introduz vários avanços em vídeo gerado por IA, incluindo:

  • Geração nativa em HD — Gera vídeo de alta definição sem depender de upscaling, reduzindo artefatos visuais.
  • Duração de vídeo estendida — Ao contrário da maioria dos modelos de vídeo de IA, que geram apenas alguns segundos de filmagem, o Marey pode criar sequências de 30 segundos em uma única passagem.
  • Edição em camadas — Diferente de outros modelos de vídeo generativo, o Marey permite que os usuários editem separadamente o primeiro plano, o plano médio e o fundo, proporcionando um controle mais preciso sobre a composição do vídeo.
  • Entradas baseadas em storyboard e esboço — Em vez de depender apenas de prompts de texto (como muitos modelos de IA fazem), o Marey permite que cineastas criem usando storyboards, esboços e até referências de filmagens ao vivo, tornando-se mais intuitivo para os profissionais.
  • Mais responsivo a entradas de condicionamento — O modelo foi projetado para interpretar melhor entradas externas, como desenhos e referências de movimento, tornando o vídeo gerado por IA mais controlável.
  • Editor de vídeo “nativo gerativo” — A Moonvalley está desenvolvendo um software complementar para o Marey, que funciona como uma ferramenta de edição de vídeo nativa generativa que ajuda os usuários a gerenciar projetos e cronogramas de maneira mais eficaz.

“O próprio modelo é fortemente construído em torno do controle,” explicou Talukdar. “Você precisa ter significativamente mais controles sobre a saída — sendo capaz de mudar os personagens. É o primeiro modelo que permite edição em camadas, para que você possa editar o primeiro plano, plano médio e fundo separadamente. É também o primeiro modelo feito para Hollywood, projetado especificamente para produção.”

Além disso, ele disse à VentureBeat que o Marey depende de um modelo híbrido de difusão-transformador que combina arquiteturas de difusão e baseadas em transformadores.

“Os modelos são modelos difusão-transformador, então é a arquitetura do transformador, e então você tem difusão como parte das camadas,” disse Talukdar. “Quando você introduz controlabilidade, geralmente é através dessas camadas que você faz isso.”

Financiado por VCs renomados, mas ainda não tanto quanto outras startups de vídeo de IA (ainda)

A Moonvalley também está anunciando esta semana uma rodada de investimentos semente de $70 milhões liderada pela Bessemer Venture Partners, Khosla Ventures e General Catalyst. Os investidores Hemant Taneja, Samir Kaul e Byron Deeter também se juntaram ao conselho de diretores da empresa.

Talukdar observou que o financiamento da Moonvalley é significativamente menor do que o de alguns de seus concorrentes até agora — a Runway teria levantado $270 milhões no total ao longo de várias rodadas — mas que a empresa otimizou seus recursos montando uma equipe de elite de pesquisadores e engenheiros de IA.

“Levantamos cerca de $70 milhões, bem menos do que nossos concorrentes, certamente,” disse ele. “Mas isso se deve realmente à equipe — ter uma equipe que pode construir essa arquitetura de maneira muito mais eficiente, recurso computacional e todas essas coisas diferentes.”

O Marey está atualmente em uma fase de acesso restrito, com estúdios e cineastas selecionados testando o modelo. A Moonvalley planeja expandir gradualmente o acesso nas próximas semanas.

“Neste momento, há vários estúdios tendo acesso a ele, e temos um grupo alfa com algumas dezenas de cineastas usando-o,” confirmou Talukdar. “A esperança é que ele esteja totalmente disponível dentro de algumas semanas, no pior caso, dentro de alguns meses.”

Com o lançamento do Marey, a Moonvalley e a Asteria pretendem se posicionar na vanguarda da produção cinematográfica assistida por IA, oferecendo estúdios e marcas uma solução que integra IA sem comprometer a integridade criativa. Mas com rivais de startups de vídeo de IA, como Runway, Pika e Hedra, continuando a adicionar novos recursos como voz e movimentos de personagens, o campo está se tornando mais competitivo.





    dois × dois =




    Bolt42