Bolt42

Há uma grande oportunidade para a IA generativa no mundo da tradução, e uma startup chamada Panjaya está elevando o conceito a um novo patamar: uma ferramenta de dublagem hiper-realista baseada em IA generativa para vídeos que recria a voz original de uma pessoa falando o novo idioma, com o vídeo e os movimentos físicos do falante se ajustando automaticamente para se alinhar naturalmente com os novos padrões de fala.

Após três anos em modo stealth, a startup está revelando o BodyTalk, a primeira versão de seu produto, juntamente com seu primeiro financiamento externo de $9,5 milhões.

Panjaya é a criação de Hilik Shani e Ariel Shalom, dois especialistas em aprendizado profundo que passaram a maior parte de suas vidas profissionais trabalhando discretamente em tecnologia de aprendizado profundo para o governo israelense e agora são, respectivamente, o gerente geral e o CTO da startup. Eles deixaram seus cargos ligados ao governo em 2021 com o desejo de criar uma startup, e há 1,5 anos foram acompanhados por Guy Piekarz como CEO.

Piekarz não é um fundador da Panjaya, mas é um nome notável a bordo: em 2013, ele vendeu para a Apple uma startup que ele fundou. A Matcha, como era chamada a startup, foi um dos primeiros players em descoberta e recomendação de vídeos de streaming, adquirida durante os primeiros dias da estratégia de TV e streaming da Apple, quando isso ainda eram mais rumores do que produtos reais. A Matcha foi financiada de forma independente e vendida por um valor modesto: entre $10 milhões e $15 milhões — algo modesto considerando o grande investimento que a Apple veio a fazer em mídia streaming.

Piekarz permaneceu na Apple por quase uma década, contribuindo para o Apple TV e depois para seu segmento de esportes. Depois, foi apresentado à Panjaya através da Viola Ventures, um de seus investidores (outros incluem R-Squared Ventures, o co-fundador e CEO da JFrog Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd da Storm Ventures, Ali Behnam da Riviera Partners e Oded Vardi.

“Eu já havia deixado a Apple e estava planejando fazer algo completamente diferente,” disse Piekarz. “No entanto, ao ver uma demonstração da tecnologia, fiquei impressionado, e o resto é história.”

O BodyTalk é interessante por como traz simultaneamente várias peças de tecnologia que atuam em diferentes aspectos da mídia sintética.

Ele começa com tradução baseada em áudio que atualmente pode oferecer traduções em 29 idiomas. A tradução é então falada em uma voz que imita o falante original, que por sua vez é ajustada a uma versão do vídeo original onde os lábios do falante e outros movimentos são modificados para se adequar às novas palavras e frases. Tudo isso é criado automaticamente em vídeos após os usuários o fazerem o upload para a plataforma, que também possui um painel com ferramentas de edição adicionais. Os planos futuros incluem uma API, além de aproximar-se do processamento em tempo real. (Atualmente, o BodyTalk é “quase em tempo real,” levando minutos para processar vídeos, disse Piekarz.)

“Estamos usando o melhor que existe onde precisamos,” disse Piekarz sobre o uso de grandes modelos de linguagem de terceiros e outras ferramentas. “E estamos construindo nossos próprios modelos de IA onde o mercado realmente não tem uma solução.”

Um exemplo disso é o mecanismo de sincronização labial da empresa, continuou ele. “Todo nosso motor de sincronização labial é desenvolvido internamente pela nossa equipe de pesquisa em IA, porque não encontramos nada que atinja esse nível e qualidade com múltiplos falantes, ângulos e todos os casos de uso comercial que queremos apoiar.”

Neste momento, o foco da empresa é apenas no mercado B2B; seus clientes incluem a JFrog e a organização de mídia TED. A empresa tem planos de expandir ainda mais na mídia, especificamente em áreas como esportes, educação, marketing, saúde e medicina.

Os vídeos traduzidos resultantes são muito impressionantes, não diferentemente do que você obtém com deepfakes, embora Piekarz faça uma careta diante desse termo, que adquiriu conotações negativas ao longo dos anos, exatamente opostas ao mercado que a startup está visando.

“‘Deepfake’ não é algo que nos interessa,” disse ele. “Queremos evitar todo esse nome.” Em vez disso, ele sugere pensar na Panjaya como parte da categoria “deep real.”

Ao visar apenas o mercado B2B e controlar quem tem acesso a suas ferramentas, a empresa está criando “barreiras” em torno da tecnologia para proteger contra o uso indevido, acrescentou. Ele também acredita que, a longo prazo, haverá mais ferramentas construídas, incluindo marca d’água, para ajudar a detectar quando os vídeos foram modificados para criar mídia sintética, tanto legítima quanto mal-intencionada. “Definitivamente queremos participar disso e não permitir desinformação,” disse ele.

A letra miúda

Existem várias startups que competem com a Panjaya na área mais abrangente de tradução de vídeos baseada em IA, incluindo grandes nomes como Vimeo e ElevenLabs, além de players menores como Speechify e Synthesis. Para todas elas, criar maneiras de melhorar a dublagem parece um pouco como nadar contra a corrente. Isso porque legendas tornaram-se uma parte muito comum de como os vídeos são consumidos atualmente.

Na TV, isso ocorre por uma série de razões, como falantes pouco claros, ruído de fundo em nossas vidas agitadas, atores mumbling, orçamentos limitados de produção e mais efeitos sonoros. A CBS descobriu em uma pesquisa com telespectadores de TV americanos que mais da metade deles mantinham as legendas ligadas “algumas (21%) ou todas (34%) as vezes.”

Mas alguns adoram legendas apenas porque são divertidas de ler, e há uma verdadeira cultura ao redor disso.

Nas redes sociais e em outros aplicativos, as legendas estão simplesmente integradas à experiência. O TikTok, como um exemplo, começou em novembro de 2023 a ativar a legendagem por padrão em todos os vídeos.

Ainda assim, existe um imenso mercado internacional para conteúdo dublado, e mesmo que o inglês seja frequentemente visto como a lingua franca da internet, há evidências de grupos de pesquisa como a CSA de que o conteúdo entregue em idiomas nativos recebe melhor engajamento, especialmente no contexto B2B. A proposta da Panjaya é que um conteúdo mais natural em língua nativa poderia ter um desempenho ainda melhor.

Alguns de seus clientes parecem apoiar essa teoria. A TED afirma que as palestras dubladas usando a tecnologia da Panjaya tiveram um aumento de 115% nas visualizações, com as taxas de conclusão dobrando para aqueles vídeos traduzidos.

O TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo na sua caixa de entrada toda quarta-feira.

    4 × cinco =

    Bolt42