ElevenLabs, uma startup de IA que recentemente levantou uma enorme rodada de financiamento de $180 milhões, é principalmente conhecida por sua habilidade em geração de áudio. A empresa deu um passo em outra direção tecnológica ao lançar seu primeiro modelo autônomo de conversão de fala para texto chamado Scribe.
Avaliada em $3,3 bilhões, a startup já ajudou várias outras empresas a oferecer serviços de conversão de texto para fala por meio de sua vasta biblioteca de vozes. No entanto, agora a empresa está buscando ingressar no setor de detecção de fala e competir com empresas como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O modelo Scribe da ElevenLabs suporta mais de 99 idiomas desde o lançamento. A empresa classifica mais de 25 idiomas na categoria de excelente precisão para o modelo, onde a taxa de erro de palavras é inferior a 5%. Esta lista inclui inglês (com uma taxa de precisão de 97%), francês, alemão, hindi, indonésio, japonês, canarês, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com altas (5% a 10% de taxa de erro de palavras), boas (10% a 20% de taxa de erro de palavras) e moderadas (25% a 50%) taxas de erro de palavras.
A empresa afirmou que o modelo superou o Google Gemini 2.0 Flash e o Whisper Large V3 em múltiplas linguagens nos testes de benchmark FLEURS & Common Voice.

A ElevenLabs desenvolveu o componente de conversão de fala para texto para sua plataforma de agente conversacional baseada em IA, que foi lançada no ano passado. No entanto, esta é a primeira vez que a empresa está lançando um modelo de detecção de fala autônomo. Em uma conversa com a TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre as melhorias nos modelos de detecção de fala.
“Queremos entender melhor o que está sendo dito em uma conversa. Estamos trabalhando em maneiras de nos afastar apenas da geração de conteúdo e focar na compreensão e transcrição da fala,” disse Staniszewski na ocasião. “Muitas pessoas afirmam que a conversão de fala para texto é um problema resolvido. Mas para muitos idiomas, é bastante insatisfatório. Acreditamos que podemos construir modelos de detecção de fala melhores porque temos equipes internas para anotar dados e nos dar feedback rápido.”
O modelo também conta com diarização inteligente de falantes para identificar quem está falando, timestamp em nível de palavra para legendas precisas, e auto-tagging de eventos sonoros como risadas da audiência. A startup oferece uma maneira para os clientes transcreverem conteúdo de vídeo diretamente para adicionar legendas em seu estúdio.
Atualmente, o Scribe funciona apenas com formatos de áudio pré-gravados. A empresa afirmou que lançará em breve uma versão de baixo atraso em tempo real do modelo. Isso significa que ainda não é eficaz para transcrições de reuniões ou para anotações de voz.
A ElevenLabs está cobrando $0,40 por uma hora de áudio transcrito com o Scribe. Embora a tarifa seja competitiva, alguns de seus rivais oferecem preços mais baixos por transcrições de áudio atualmente, com algumas diferenças de recursos.
Conteúdo relacionado
O novo Alexa+ da Amazon traz recursos ‘Explorar’ e ‘Histórias’ com inteligência artificial para crianças.
[the_ad id="145565"] Como parte do anúncio do novo assistente Alexa+ powered by AI da Amazon, a gigante da tecnologia revelou que está lançando duas novas funcionalidades…
Amazon Alexa+ custa R$ 19,99, gratuito para membros Prime.
[the_ad id="145565"] A nova e aprimorada experiência da Alexa, Alexa+, começa a partir de R$ 19,99 por mês, ou gratuitamente para assinantes do Amazon Prime. Ela será lançada…
You.com revela agente de pesquisa em IA que processa mais de 400 fontes simultaneamente
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura líder da indústria em IA. Saiba Mais A…