A plataforma de gravação e edição de podcasts Podcastle agora se junta a outras empresas na corrida de IA, lançando seu próprio modelo de IA chamado Asyncflow v1.0. Uma API para desenvolvedores também estará disponível, permitindo que integrem diretamente o modelo de conversão de texto em fala em seus aplicativos.
Graças ao novo modelo, a empresa é capaz de oferecer mais de 450 vozes de IA que podem narrar seu texto. A startup afirmou que desenvolveu a tecnologia e o modelo de tal maneira que seus custos de treinamento e inferência são baixos, dando-lhe uma vantagem em relação aos concorrentes.
Com essa iniciativa, a Podcastle se une a várias startups, incluindo ElevenLabs, Speechify e WellSaid, que desenvolveram tecnologias e modelos de IA para converter qualquer tipo de texto em um clipe de voz narrado por IA. Essa tecnologia abrange casos de uso como marketing, publicidade, criação de conteúdo, educação e treinamento corporativo.
Arto Yeritsyan, fundador da Podcastle, disse ao TechCrunch que a empresa sempre quis construir um modelo de conversão de texto em fala, mas os custos de treinamento e os requisitos de dados eram muito altos.
“Queríamos construir um modelo robusto de conversão de texto em fala desde o nosso início. No entanto, os custos de desenvolvimento eram muito altos. Graças aos recentes desenvolvimentos em modelos de linguagem, conseguimos uma grande conquista no ano passado para chegar a um ponto em que pudéssemos construir um modelo de voz de alta qualidade sem precisar de uma tonelada de dados,” disse Yeritsyan.
A empresa também foi apoiada em seus esforços pela arrecadação de $13,5 milhões em uma rodada de investimento da Série A no ano passado.
Yeritsyan comentou que, enquanto a Podcastle cobra cerca de $40 por 500 minutos de conversão de texto em fala, a ElevenLabs cobra $99 pelo mesmo serviço.
O recurso de clonagem de voz da Podcastle também está recebendo uma atualização para criar um processo mais rápido de treinamento.
Anteriormente, o processo de treinamento envolvia a leitura de aproximadamente 70 frases diferentes. Agora, precisa apenas de alguns segundos de gravação sua para criar uma clonagem da sua voz. O novo processo também utilizou a Magic Dust AI da Podcastle, que foi lançada no ano passado, para melhorar a qualidade da gravação de áudio.

Em nossos testes, a voz criada com o novo processo soou um pouco robótica, embora imitasse nosso tom. A empresa afirmou que, com o tempo, a funcionalidade irá melhorar. Além disso, você pode treinar diferentes amostras da sua voz para obter resultados variados.
A Podcastle afirmou que, além dos custos, ter ferramentas para áudio, vídeo, podcasts e narração com IA sob um site redesenhado lhe dará uma vantagem sobre os concorrentes. Yeritsyan destacou que, embora a maioria dos usuários utilize a Podcastle para trabalhar em conteúdos de áudio, o vídeo está se aproximando rapidamente.
Conteúdo relacionado
Anthropic transforma a abordagem da IA na educação: o Modo de Aprendizagem do Claude faz os alunos refletirem.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre cobertura de IA de liderança no setor. Saiba mais……
Anthropic lança um plano de chatbot de IA para faculdades e universidades
[the_ad id="145565"] A Anthropic anunciou na quarta-feira que está lançando uma nova camada Claude para Educação, como resposta ao plano ChatGPT Edu da OpenAI. A nova camada é…
O artigo de 145 páginas da DeepMind sobre segurança em AGI pode não convencer os céticos.
[the_ad id="145565"] O Google DeepMind publicou na quarta-feira um documento exaustivo sobre sua abordagem de segurança para AGI, definida de forma ampla como uma IA capaz de…