A plataforma de gravação e edição de podcasts Podcastle agora se junta a outras empresas na corrida de IA, lançando seu próprio modelo de IA chamado Asyncflow v1.0. Uma API para desenvolvedores também estará disponível, permitindo que integrem diretamente o modelo de conversão de texto em fala em seus aplicativos.
Graças ao novo modelo, a empresa é capaz de oferecer mais de 450 vozes de IA que podem narrar seu texto. A startup afirmou que desenvolveu a tecnologia e o modelo de tal maneira que seus custos de treinamento e inferência são baixos, dando-lhe uma vantagem em relação aos concorrentes.
Com essa iniciativa, a Podcastle se une a várias startups, incluindo ElevenLabs, Speechify e WellSaid, que desenvolveram tecnologias e modelos de IA para converter qualquer tipo de texto em um clipe de voz narrado por IA. Essa tecnologia abrange casos de uso como marketing, publicidade, criação de conteúdo, educação e treinamento corporativo.
Arto Yeritsyan, fundador da Podcastle, disse ao TechCrunch que a empresa sempre quis construir um modelo de conversão de texto em fala, mas os custos de treinamento e os requisitos de dados eram muito altos.
“Queríamos construir um modelo robusto de conversão de texto em fala desde o nosso início. No entanto, os custos de desenvolvimento eram muito altos. Graças aos recentes desenvolvimentos em modelos de linguagem, conseguimos uma grande conquista no ano passado para chegar a um ponto em que pudéssemos construir um modelo de voz de alta qualidade sem precisar de uma tonelada de dados,” disse Yeritsyan.
A empresa também foi apoiada em seus esforços pela arrecadação de $13,5 milhões em uma rodada de investimento da Série A no ano passado.
Yeritsyan comentou que, enquanto a Podcastle cobra cerca de $40 por 500 minutos de conversão de texto em fala, a ElevenLabs cobra $99 pelo mesmo serviço.
O recurso de clonagem de voz da Podcastle também está recebendo uma atualização para criar um processo mais rápido de treinamento.
Anteriormente, o processo de treinamento envolvia a leitura de aproximadamente 70 frases diferentes. Agora, precisa apenas de alguns segundos de gravação sua para criar uma clonagem da sua voz. O novo processo também utilizou a Magic Dust AI da Podcastle, que foi lançada no ano passado, para melhorar a qualidade da gravação de áudio.

Em nossos testes, a voz criada com o novo processo soou um pouco robótica, embora imitasse nosso tom. A empresa afirmou que, com o tempo, a funcionalidade irá melhorar. Além disso, você pode treinar diferentes amostras da sua voz para obter resultados variados.
A Podcastle afirmou que, além dos custos, ter ferramentas para áudio, vídeo, podcasts e narração com IA sob um site redesenhado lhe dará uma vantagem sobre os concorrentes. Yeritsyan destacou que, embora a maioria dos usuários utilize a Podcastle para trabalhar em conteúdos de áudio, o vídeo está se aproximando rapidamente.
Conteúdo relacionado
Runway, conhecida por seus modelos de IA para geração de vídeo, arrecada R$ 308 milhões.
[the_ad id="145565"] Runway, uma startup que desenvolve uma variedade de modelos de IA generativa para a produção de mídia, incluindo modelos de geração de vídeo, levantou US$…
Plataforma de IA de Voz Phonic recebe apoio da Lux
[the_ad id="145565"] A qualidade das vozes geradas por IA é suficientemente boa para criar audiolivros e podcasts, ler artigos em voz alta e oferecer suporte ao cliente básico.…
Como Claude Pensa? A Busca da Anthropic para Desvendar a Caixa-preta da IA
[the_ad id="145565"] Modelos de linguagem de grande escala (LLMs) como Claude mudaram a maneira como usamos a tecnologia. Eles alimentam ferramentas como chatbots, ajudam a…