ElevenLabs, uma startup de IA que recentemente levantou uma enorme rodada de financiamento de $180 milhões, é principalmente conhecida por sua habilidade em geração de áudio. A empresa deu um passo em outra direção tecnológica ao lançar seu primeiro modelo autônomo de conversão de fala para texto chamado Scribe.
Avaliada em $3,3 bilhões, a startup já ajudou várias outras empresas a oferecer serviços de conversão de texto para fala por meio de sua vasta biblioteca de vozes. No entanto, agora a empresa está buscando ingressar no setor de detecção de fala e competir com empresas como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O modelo Scribe da ElevenLabs suporta mais de 99 idiomas desde o lançamento. A empresa classifica mais de 25 idiomas na categoria de excelente precisão para o modelo, onde a taxa de erro de palavras é inferior a 5%. Esta lista inclui inglês (com uma taxa de precisão de 97%), francês, alemão, hindi, indonésio, japonês, canarês, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com altas (5% a 10% de taxa de erro de palavras), boas (10% a 20% de taxa de erro de palavras) e moderadas (25% a 50%) taxas de erro de palavras.
A empresa afirmou que o modelo superou o Google Gemini 2.0 Flash e o Whisper Large V3 em múltiplas linguagens nos testes de benchmark FLEURS & Common Voice.

A ElevenLabs desenvolveu o componente de conversão de fala para texto para sua plataforma de agente conversacional baseada em IA, que foi lançada no ano passado. No entanto, esta é a primeira vez que a empresa está lançando um modelo de detecção de fala autônomo. Em uma conversa com a TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre as melhorias nos modelos de detecção de fala.
“Queremos entender melhor o que está sendo dito em uma conversa. Estamos trabalhando em maneiras de nos afastar apenas da geração de conteúdo e focar na compreensão e transcrição da fala,” disse Staniszewski na ocasião. “Muitas pessoas afirmam que a conversão de fala para texto é um problema resolvido. Mas para muitos idiomas, é bastante insatisfatório. Acreditamos que podemos construir modelos de detecção de fala melhores porque temos equipes internas para anotar dados e nos dar feedback rápido.”
O modelo também conta com diarização inteligente de falantes para identificar quem está falando, timestamp em nível de palavra para legendas precisas, e auto-tagging de eventos sonoros como risadas da audiência. A startup oferece uma maneira para os clientes transcreverem conteúdo de vídeo diretamente para adicionar legendas em seu estúdio.
Atualmente, o Scribe funciona apenas com formatos de áudio pré-gravados. A empresa afirmou que lançará em breve uma versão de baixo atraso em tempo real do modelo. Isso significa que ainda não é eficaz para transcrições de reuniões ou para anotações de voz.
A ElevenLabs está cobrando $0,40 por uma hora de áudio transcrito com o Scribe. Embora a tarifa seja competitiva, alguns de seus rivais oferecem preços mais baixos por transcrições de áudio atualmente, com algumas diferenças de recursos.
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…