Podcastle Unveils Text-to-Speech Model Featuring Over 450 AI Voices in Portuguese

A plataforma de gravação e edição de podcasts Podcastle agora se junta a outras empresas na corrida de IA, lançando seu próprio modelo de IA chamado Asyncflow v1.0. Uma API para desenvolvedores também estará disponível, permitindo que integrem diretamente o modelo de conversão de texto em fala em seus aplicativos.

Graças ao novo modelo, a empresa é capaz de oferecer mais de 450 vozes de IA que podem narrar seu texto. A startup afirmou que desenvolveu a tecnologia e o modelo de tal maneira que seus custos de treinamento e inferência são baixos, dando-lhe uma vantagem em relação aos concorrentes.

Com essa iniciativa, a Podcastle se une a várias startups, incluindo ElevenLabs, Speechify e WellSaid, que desenvolveram tecnologias e modelos de IA para converter qualquer tipo de texto em um clipe de voz narrado por IA. Essa tecnologia abrange casos de uso como marketing, publicidade, criação de conteúdo, educação e treinamento corporativo.

Arto Yeritsyan, fundador da Podcastle, disse ao TechCrunch que a empresa sempre quis construir um modelo de conversão de texto em fala, mas os custos de treinamento e os requisitos de dados eram muito altos.

“Queríamos construir um modelo robusto de conversão de texto em fala desde o nosso início. No entanto, os custos de desenvolvimento eram muito altos. Graças aos recentes desenvolvimentos em modelos de linguagem, conseguimos uma grande conquista no ano passado para chegar a um ponto em que pudéssemos construir um modelo de voz de alta qualidade sem precisar de uma tonelada de dados,” disse Yeritsyan.

A empresa também foi apoiada em seus esforços pela arrecadação de $13,5 milhões em uma rodada de investimento da Série A no ano passado.

Yeritsyan comentou que, enquanto a Podcastle cobra cerca de $40 por 500 minutos de conversão de texto em fala, a ElevenLabs cobra $99 pelo mesmo serviço.

O recurso de clonagem de voz da Podcastle também está recebendo uma atualização para criar um processo mais rápido de treinamento.

Anteriormente, o processo de treinamento envolvia a leitura de aproximadamente 70 frases diferentes. Agora, precisa apenas de alguns segundos de gravação sua para criar uma clonagem da sua voz. O novo processo também utilizou a Magic Dust AI da Podcastle, que foi lançada no ano passado, para melhorar a qualidade da gravação de áudio.

Em nossos testes, a voz criada com o novo processo soou um pouco robótica, embora imitasse nosso tom. A empresa afirmou que, com o tempo, a funcionalidade irá melhorar. Além disso, você pode treinar diferentes amostras da sua voz para obter resultados variados.

A Podcastle afirmou que, além dos custos, ter ferramentas para áudio, vídeo, podcasts e narração com IA sob um site redesenhado lhe dará uma vantagem sobre os concorrentes. Yeritsyan destacou que, embora a maioria dos usuários utilize a Podcastle para trabalhar em conteúdos de áudio, o vídeo está se aproximando rapidamente.