ElevenLabs Unveils Its Own Portuguese Speech-to-Text Model

ElevenLabs, uma startup de IA que recentemente levantou uma enorme rodada de financiamento de $180 milhões, é principalmente conhecida por sua habilidade em geração de áudio. A empresa deu um passo em outra direção tecnológica ao lançar seu primeiro modelo autônomo de conversão de fala para texto chamado Scribe.

Avaliada em $3,3 bilhões, a startup já ajudou várias outras empresas a oferecer serviços de conversão de texto para fala por meio de sua vasta biblioteca de vozes. No entanto, agora a empresa está buscando ingressar no setor de detecção de fala e competir com empresas como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.

O modelo Scribe da ElevenLabs suporta mais de 99 idiomas desde o lançamento. A empresa classifica mais de 25 idiomas na categoria de excelente precisão para o modelo, onde a taxa de erro de palavras é inferior a 5%. Esta lista inclui inglês (com uma taxa de precisão de 97%), francês, alemão, hindi, indonésio, japonês, canarês, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com altas (5% a 10% de taxa de erro de palavras), boas (10% a 20% de taxa de erro de palavras) e moderadas (25% a 50%) taxas de erro de palavras.

A empresa afirmou que o modelo superou o Google Gemini 2.0 Flash e o Whisper Large V3 em múltiplas linguagens nos testes de benchmark FLEURS & Common Voice.

A ElevenLabs desenvolveu o componente de conversão de fala para texto para sua plataforma de agente conversacional baseada em IA, que foi lançada no ano passado. No entanto, esta é a primeira vez que a empresa está lançando um modelo de detecção de fala autônomo. Em uma conversa com a TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre as melhorias nos modelos de detecção de fala.

“Queremos entender melhor o que está sendo dito em uma conversa. Estamos trabalhando em maneiras de nos afastar apenas da geração de conteúdo e focar na compreensão e transcrição da fala,” disse Staniszewski na ocasião. “Muitas pessoas afirmam que a conversão de fala para texto é um problema resolvido. Mas para muitos idiomas, é bastante insatisfatório. Acreditamos que podemos construir modelos de detecção de fala melhores porque temos equipes internas para anotar dados e nos dar feedback rápido.”

O modelo também conta com diarização inteligente de falantes para identificar quem está falando, timestamp em nível de palavra para legendas precisas, e auto-tagging de eventos sonoros como risadas da audiência. A startup oferece uma maneira para os clientes transcreverem conteúdo de vídeo diretamente para adicionar legendas em seu estúdio.

Atualmente, o Scribe funciona apenas com formatos de áudio pré-gravados. A empresa afirmou que lançará em breve uma versão de baixo atraso em tempo real do modelo. Isso significa que ainda não é eficaz para transcrições de reuniões ou para anotações de voz.

A ElevenLabs está cobrando $0,40 por uma hora de áudio transcrito com o Scribe. Embora a tarifa seja competitiva, alguns de seus rivais oferecem preços mais baixos por transcrições de áudio atualmente, com algumas diferenças de recursos.

Conteúdo relacionado

BusinessInteligência artificial

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…

BusinessInteligência artificial

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…

Inteligência artificial

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE

[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…