Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais
ElevenLabs, a startup de clonagem e geração de voz por IA valorizada, formada por ex-alunos da Palantir, anunciou hoje o lançamento do Scribe v1, um novo modelo de conversão de voz em texto que supostamente alcança a maior precisão em várias línguas. Os usuários podem experimentá-lo aqui no site da ElevenLabs.
De acordo com as métricas da empresa, o Scribe supera o Gemini 2.0 da Google, o Whisper v3 da OpenAI, e o Nova-3 da Deepgram na conversão precisa de discurso falado em texto na web, alcançando novas taxas de erro recordes.
A empresa afirma que o Scribe oferece precisão em transcrição de alto nível em 99 línguas, incluindo desempenho aprimorado em idiomas que historicamente tiveram menos suporte, como sérvio, cantonês e malaialam.
Flavio Schneider, Pesquisador Principal da ElevenLabs, escreveu no X que o Scribe é o “modelo de entendimento de áudio mais inteligente” já lançado pela ElevenLabs.
“O Scribe não apenas transcreve — ele entende o áudio,” Schneider continuou em uma resposta em thread. “Ele pode detectar eventos não verbais (como risadas, efeitos sonoros, música e ruído de fundo) e analisar longos contextos de áudio para uma diarização precisa, mesmo em ambientes desafiadores.”
“Diarização” refere-se ao processo de separar falantes com base em suas qualidades vocais em uma gravação.
De fato, a documentação da ElevenLabs afirma que o Scribe pode distinquir e isolar até 32 diferentes falantes no mesmo arquivo de áudio.
Embora a ElevenLabs advirta que o Scribe é “mais adequado para quando uma transcrição de alta precisão é necessária, em vez de transcrição em tempo real,” a empresa também planeja introduzir uma versão de baixa latência em breve, expandindo seu uso para aplicações em tempo real.
As menores taxas de erro de palavras (WER)
O Scribe foi projetado para lidar com os desafios de áudio do mundo real com precisão. De acordo com os resultados dos benchmarks do FLEURS e do Common Voice, ele registra as menores taxas de erro de palavras (WER) para muitas línguas, incluindo italiano (98,7%) e inglês (96,7%).
Os principais recursos incluem:
- Diarização de falantes para diferenciar falantes em gravações com vários participantes
- Marcação de palavras com timestamps para precisão detalhada da transcrição
- Detecção de eventos não verbais, como risadas e ruídos de fundo
- Saída de transcrição estruturada para integração perfeita via API
Preços e disponibilidade
O Scribe já está disponível através do site e da API da ElevenLabs.
O preço é definido em $0,40 por hora de áudio de entrada, com um desconto de 50% nas próximas seis semanas. Uma versão de baixa latência para aplicações em tempo real também está em desenvolvimento.
O que isso significa para as empresas
Para os tomadores de decisão empresariais, o Scribe apresenta uma ferramenta para transcrições escaláveis e de alta precisão, tornando-se útil para setores que dependem de documentação automatizada, transcrição de reuniões e acessibilidade de conteúdo.
A capacidade do modelo de lidar com várias línguas com alta precisão também beneficia empresas multinacionais, empresas de mídia e aplicativos de suporte ao cliente.
A estrutura de preços do Scribe o torna competitivo para empresas que necessitam de serviços de transcrição em alta volume, e sua integração baseada em API permite uma adoção tranquila nos fluxos de trabalho empresariais.
Além disso, a versão de baixa latência que está por vir pode posicionar o Scribe como uma opção viável para ferramentas de comunicação em tempo real.
Lançado no mesmo dia que o modelo concorrente de texto-para-fala da Hume, Octave
O momento é tudo, e a ElevenLabs escolheu lançar o Scribe no mesmo dia em que a Hume AI revelou o Octave, um modelo de texto-para-fala impulsionado por LLM que permite aos usuários personalizar vozes geradas por IA com emoções ajustáveis.
É projetado para criação de conteúdo, incluindo audiolivros, podcasts e dublagens de videogames. Ao contrário dos sistemas TTS padrão, o Octave considera o contexto além das frases individuais, ajustando o tom, ritmo e cadência de forma dinâmica para soar mais natural.
A Hume AI posiciona o Octave como um concorrente direto das ofertas de texto-para-fala da ElevenLabs, destacando que o preço do Octave é cerca da metade do custo dos atuais serviços de voz por IA da ElevenLabs.
Embora o Scribe e o Octave sirvam a funções diferentes, seus desenvolvimentos refletem a crescente concorrência nos modelos de áudio movidos por IA.
A ElevenLabs prioriza processamento de voz preciso e multilíngue, enquanto a Hume AI avança em fala gerada por IA expressiva.
Para as empresas, isso significa soluções mais especializadas para transcrição e aplicações de voz sintética, permitindo uma produção de conteúdo mais eficiente, engajamento com o cliente e ferramentas de acessibilidade.
O Scribe já está ativo, e a ElevenLabs está organizando um evento virtual na próxima semana com a equipe por trás de seu desenvolvimento. Mais detalhes, benchmarks e documentação da API estão disponíveis no post do blog oficial.
Insights diários sobre casos de uso comercial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Fornecemos informações sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Cuidado com autismo e IDD impulsionado por IA: CentralReach e MongoDB transformam a entrega de cuidados
[the_ad id="145565"] Apresentado por MongoDB Há uma lacuna significativa na disponibilidade de cuidados para crianças e adultos diagnosticados com autismo e deficiências…
Receitas da Nvidia atingem R$ 39,3 bilhões, aumento de 78% no FYQ4 – sem sinal de desaceleração (atualizado)
[the_ad id="145565"] A Nvidia reportou que sua receita para o quarto trimestre fiscal encerrado em 26 de janeiro foi de $39,3 bilhões, um aumento de 12% em relação ao trimestre…
A ElevenLabs agora permite que autores criem e publiquem audiolivros em sua própria plataforma.
[the_ad id="145565"] A empresa de IA de voz ElevenLabs agora permite que autores publiquem audiobooks gerados por IA em seu próprio aplicativo Reader, conforme apurado pelo…