Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais


ElevenLabs, a startup de clonagem e geração de voz por IA valorizada, formada por ex-alunos da Palantir, anunciou hoje o lançamento do Scribe v1, um novo modelo de conversão de voz em texto que supostamente alcança a maior precisão em várias línguas. Os usuários podem experimentá-lo aqui no site da ElevenLabs.

De acordo com as métricas da empresa, o Scribe supera o Gemini 2.0 da Google, o Whisper v3 da OpenAI, e o Nova-3 da Deepgram na conversão precisa de discurso falado em texto na web, alcançando novas taxas de erro recordes.

A empresa afirma que o Scribe oferece precisão em transcrição de alto nível em 99 línguas, incluindo desempenho aprimorado em idiomas que historicamente tiveram menos suporte, como sérvio, cantonês e malaialam.

Flavio Schneider, Pesquisador Principal da ElevenLabs, escreveu no X que o Scribe é o “modelo de entendimento de áudio mais inteligente” já lançado pela ElevenLabs.

“O Scribe não apenas transcreve — ele entende o áudio,” Schneider continuou em uma resposta em thread. “Ele pode detectar eventos não verbais (como risadas, efeitos sonoros, música e ruído de fundo) e analisar longos contextos de áudio para uma diarização precisa, mesmo em ambientes desafiadores.”

Diarização” refere-se ao processo de separar falantes com base em suas qualidades vocais em uma gravação.

De fato, a documentação da ElevenLabs afirma que o Scribe pode distinquir e isolar até 32 diferentes falantes no mesmo arquivo de áudio.

Embora a ElevenLabs advirta que o Scribe é “mais adequado para quando uma transcrição de alta precisão é necessária, em vez de transcrição em tempo real,” a empresa também planeja introduzir uma versão de baixa latência em breve, expandindo seu uso para aplicações em tempo real.

As menores taxas de erro de palavras (WER)

O Scribe foi projetado para lidar com os desafios de áudio do mundo real com precisão. De acordo com os resultados dos benchmarks do FLEURS e do Common Voice, ele registra as menores taxas de erro de palavras (WER) para muitas línguas, incluindo italiano (98,7%) e inglês (96,7%).

Os principais recursos incluem:

  • Diarização de falantes para diferenciar falantes em gravações com vários participantes
  • Marcação de palavras com timestamps para precisão detalhada da transcrição
  • Detecção de eventos não verbais, como risadas e ruídos de fundo
  • Saída de transcrição estruturada para integração perfeita via API

Preços e disponibilidade

O Scribe já está disponível através do site e da API da ElevenLabs.

O preço é definido em $0,40 por hora de áudio de entrada, com um desconto de 50% nas próximas seis semanas. Uma versão de baixa latência para aplicações em tempo real também está em desenvolvimento.

O que isso significa para as empresas

Para os tomadores de decisão empresariais, o Scribe apresenta uma ferramenta para transcrições escaláveis e de alta precisão, tornando-se útil para setores que dependem de documentação automatizada, transcrição de reuniões e acessibilidade de conteúdo.

A capacidade do modelo de lidar com várias línguas com alta precisão também beneficia empresas multinacionais, empresas de mídia e aplicativos de suporte ao cliente.

A estrutura de preços do Scribe o torna competitivo para empresas que necessitam de serviços de transcrição em alta volume, e sua integração baseada em API permite uma adoção tranquila nos fluxos de trabalho empresariais.

Além disso, a versão de baixa latência que está por vir pode posicionar o Scribe como uma opção viável para ferramentas de comunicação em tempo real.

Lançado no mesmo dia que o modelo concorrente de texto-para-fala da Hume, Octave

O momento é tudo, e a ElevenLabs escolheu lançar o Scribe no mesmo dia em que a Hume AI revelou o Octave, um modelo de texto-para-fala impulsionado por LLM que permite aos usuários personalizar vozes geradas por IA com emoções ajustáveis.

É projetado para criação de conteúdo, incluindo audiolivros, podcasts e dublagens de videogames. Ao contrário dos sistemas TTS padrão, o Octave considera o contexto além das frases individuais, ajustando o tom, ritmo e cadência de forma dinâmica para soar mais natural.

A Hume AI posiciona o Octave como um concorrente direto das ofertas de texto-para-fala da ElevenLabs, destacando que o preço do Octave é cerca da metade do custo dos atuais serviços de voz por IA da ElevenLabs.

Embora o Scribe e o Octave sirvam a funções diferentes, seus desenvolvimentos refletem a crescente concorrência nos modelos de áudio movidos por IA.

A ElevenLabs prioriza processamento de voz preciso e multilíngue, enquanto a Hume AI avança em fala gerada por IA expressiva.

Para as empresas, isso significa soluções mais especializadas para transcrição e aplicações de voz sintética, permitindo uma produção de conteúdo mais eficiente, engajamento com o cliente e ferramentas de acessibilidade.

O Scribe já está ativo, e a ElevenLabs está organizando um evento virtual na próxima semana com a equipe por trás de seu desenvolvimento. Mais detalhes, benchmarks e documentação da API estão disponíveis no post do blog oficial.





    doze + 1 =




    Bolt42