A ampla disponibilidade de ferramentas para construir IA generativa resultou em uma explosão do número de startups nesse setor. O capital abundante também ajudou, assim como a redução nos custos da infraestrutura técnica necessária.
Na verdade, uma das aplicações mais chamativas da IA generativa, o vídeo gerado, corre o risco de se tornar saturada. Laboratórios como Genmo, Haiper e Rhymes AI estão lançando modelos em ritmo acelerado, e em alguns casos, pouco os distingue do que já é considerado o padrão máximo anterior.
Naeem Talukdar acredita que a confiança — e não necessariamente as capacidades de um modelo — é o que fará algumas iniciativas de vídeo gerado se destacarem das demais. É por isso que ele está fundando a Moonvalley, uma startup com sede em Los Angeles que está desenvolvendo ferramentas de vídeo generativo que são supostamente mais “transparentes”.
Talukdar liderou o crescimento de produtos na Zapier antes de fundar uma empresa apoiada pelo Y Combinator, a Draft, que hospedava um marketplace para conteúdo de IA corporativa. Ele recrutou Mateusz Malinowski e Mik Binkowski para lançar a Moonvalley — ambos ex-cientistas da DeepMind, onde estudaram técnicas de geração de vídeo.
“Compartilhamos a crença de que a geração de vídeo transformaria a mídia e o entretenimento, mas as startups que víamos operando no espaço não tinham os atributos necessários para serem bem-sucedidas,” disse Talukdar à TechCrunch. “As empresas existentes eram profundamente hostis em relação a artistas, criadores e a indústria como um todo.”
Para apoiar o ponto de Talukdar, a maioria das empresas de IA generativa treina modelos com base em dados públicos, alguns dos quais são inevitavelmente protegidos por direitos autorais. Essas empresas argumentam que a doutrina de uso justo protege essa prática. Por exemplo, a OpenAI insistiu que não pode treinar modelos adequadamente sem material protegido por direitos autorais, e a Suno argumentou que o treinamento indiscriminado não é diferente de uma “criança escrevendo suas próprias canções de rock depois de ouvir o gênero.”
Mas isso não impediu os detentores de direitos de apresentarem queixas ou entrarem com ações de suspensão.
Os fornecedores se tornaram bastante ousados mesmo com as ações judiciais se acumulando contra eles. No começo deste ano, a ex-CTO da OpenAI, Mira Murati, não negou que o modelo de vídeo da OpenAI, Sora, foi treinado com clipes do YouTube — em aparente violação da política de uso do YouTube. Em outros lugares, um relatório da 404 Media sugere que a Runway, uma startup de vídeo gerado, coletou imagens do YouTube de canais pertencentes à Disney e a criadores como MKBHD sem permissão.
A startup canadense de IA, Viggle, admite abertamente que utiliza vídeos do YouTube para alimentar seus modelos de vídeo. E, como a maioria de seus rivais, não oferece nenhuma opção de recurso para criadores cujas obras podem ter sido incorporadas em seu treinamento.
“Modelos generativos precisam respeitar direitos autorais, marcas registradas e direitos de imagem,” disse Talukdar. “É por isso que estamos colaborando de perto com criadores em nossos modelos.”
A Moonvalley, que ainda não possui um modelo de vídeo totalmente treinado, afirma ser uma das poucas empresas que utilizam exclusivamente dados licenciados de proprietários de conteúdo que “optaram por participar.” Para se proteger, a Moonvalley pretende permitir que criadores solicitem a remoção de seu conteúdo de seus modelos, permitir que clientes possam excluir seus dados a qualquer momento e oferecer uma política de indenização para proteger usuários de desafios de direitos autorais.
Isso representa uma mudança em relação à proposta original da Moonvalley, que era um gerador de vídeo bastante genérico para criar clipes no estilo anime e fantasia. A Moonvalley lançou dois modelos de geração de vídeo em beta para sua comunidade no Discord, que conta com mais de 100.000 usuários, antes de decidir mudar de direção.
A nova abordagem se assemelha à da Adobe, que está treinando seus modelos de vídeo Firefly com conteúdo licenciado da plataforma Adobe Stock. Talukdar não revelou quanto a Moonvalley está pagando aos criadores por clipes, mas pode ser um valor considerável. A Bloomberg reportou que a Adobe estava oferecendo cerca de $120 por cada 40-45 minutos de vídeo.
Para ser claro, a Moonvalley não está adquirindo o conteúdo sozinha. Ela está trabalhando com parceiros não revelados que cuidam dos arranjos de licenciamento e embalam vídeos em conjuntos de dados que a Moonvalley compra.
Esses parceiros — os chamados “corretores de dados” — estão em alta demanda atualmente, graças ao boom da IA generativa. O mercado para dados de treinamento em IA é esperado para crescer de aproximadamente $2,5 bilhões agora para quase $30 bilhões dentro de uma década.
“Estamos licenciando dados de alta qualidade de várias fontes que trabalham diretamente com criadores e os compensam adequadamente pelo uso de seu conteúdo,” acrescentou Talukdar. “Estamos garantindo que usamos um conjunto de dados de alta qualidade e diversificado.”
Ao contrário de alguns modelos de vídeo “não filtrados” que inserem prontamente a imagem de uma pessoa em clipes, a Moonvalley também está se comprometendo a estabelecer regras em torno de suas ferramentas criativas. Assim como o Sora da OpenAI, os modelos da Moonvalley bloquearão certos conteúdos, como frases NSFW, e não permitirão que as pessoas solicitem gerar vídeos de pessoas específicas ou celebridades.
Claro, nenhum filtro é perfeito, mas Talukdar afirma que esse processo de “teste rigoroso” será uma parte central da estratégia de lançamento da Moonvalley.
“Conforme a relação entre mídia e IA continua a evoluir rapidamente, e não sem ceticismo, a Moonvalley visa se estabelecer como o parceiro mais confiável para organizações de mídia,” disse ele.
Mas será que a Moonvalley realmente pode competir?
Como mencionado anteriormente, Google, Meta e muitos outros estão perseguindo vídeo gerado — com diferentes graus de consideração ética. As grandes empresas de tecnologia estão mudando seus termos de uso para ganhar uma vantagem em dados: o Google está treinando seu modelo de vídeo Veo com vídeos do YouTube, enquanto o Meta está treinando seus modelos com conteúdo do Instagram e Facebook.
A Moonvalley espera atrair marcas e casas criativas, mas alguns fornecedores já fizeram progressos significativos nesse sentido. A Runway recentemente assinou um contrato com a Lionsgate para treinar um modelo personalizado com o catálogo de filmes do estúdio; a Stability AI recrutou o diretor de “Avatar”, James Cameron, para seu conselho de administração; e a OpenAI se juntou a marcas e diretores independentes para mostrar o potencial do Sora.
Além disso, a Adobe está mirando no mercado-alvo da Moonvalley: artistas e criadores de conteúdo que querem ferramentas de vídeo gerativo “mais seguras” (pelo menos do ponto de vista legal).
O desafio da Moonvalley é tríplice. Ela precisará convencer os clientes de que suas ferramentas são competitivas em relação ao que já está disponível. Precisará desenvolver um tempo de operação suficiente para poder treinar e servir modelos de acompanhamento. E terá que garantir uma base leal de clientes que não mudarão de fornecedor a qualquer momento.
Muitos artistas e criadores estão compreensivelmente receosos em relação à IA generativa, uma vez que ela ameaça desestabilizar a indústria do cinema e da televisão. Um estudo de 2024 encomendado pelo Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, estima que mais de 100.000 empregos em filmes, televisão e animação baseados nos EUA serão afetados pela IA até 2026.
“Nossa proposta é construir ferramentas para ajudar os criadores a criar conteúdos cada vez mais grandiosos e imersivos,” disse Talukdar quando perguntei a ele sobre o risco de os criativos perderem seus empregos devido à IA generativa.
No que diz respeito ao financiamento, a Moonvalley fez algum progresso: a empresa arrecadou recentemente $70 milhões em uma rodada de financiamento seed co-liderada pela General Catalyst e Khosla Ventures, com participação da Bessemer Ventures. Isso financiará a pesquisa e desenvolvimento da Moonvalley assim como a contratação de novos funcionários.
Atualmente, a empresa conta com cerca de 30 funcionários que anteriormente trabalharam na DeepMind, Meta, Microsoft e TikTok, diz Talukdar.
“O que nos diferencia de outras empresas é o foco no produto,” acrescentou. “Enquanto o núcleo da nossa empresa está em treinar modelos gerativos de última geração, nosso foco é construir ferramentas criativas profundamente capazes para transformar esses modelos em equipamentos poderosos para criadores profissionais, estúdios e marcas.”
Talukdar afirma que o plano é lançar o primeiro modelo da Moonvalley ainda este ano. A empresa terá que se apressar se espera superar os lançamentos que estão por vir da Black Forest Labs, Luma Labs, Midjourney e o grande gigante do setor.
Conteúdo relacionado
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot gerador de texto da OpenAI, rapidamente ganhou popularidade desde seu lançamento em novembro de 2022. O que começou como uma…
A Nous Research está treinando um modelo de IA utilizando máquinas distribuídas pela internet.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder de mercado. Saiba mais…
Meta afirma que conteúdo gerado por IA representou menos de 1% das desinformações relacionadas às eleições em seus aplicativos.
[the_ad id="145565"] No início do ano, havia grandes preocupações sobre como IA generativa poderia ser usada para interferir nas eleições globais, espalhando propaganda e…