ElevenLabs Unveils Its Own Portuguese Speech-to-Text Model

ElevenLabs, uma startup de IA que recentemente levantou uma enorme rodada de financiamento de $180 milhões, é principalmente conhecida por sua habilidade em geração de áudio. A empresa deu um passo em outra direção tecnológica ao lançar seu primeiro modelo autônomo de conversão de fala para texto chamado Scribe.

Avaliada em $3,3 bilhões, a startup já ajudou várias outras empresas a oferecer serviços de conversão de texto para fala por meio de sua vasta biblioteca de vozes. No entanto, agora a empresa está buscando ingressar no setor de detecção de fala e competir com empresas como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.

O modelo Scribe da ElevenLabs suporta mais de 99 idiomas desde o lançamento. A empresa classifica mais de 25 idiomas na categoria de excelente precisão para o modelo, onde a taxa de erro de palavras é inferior a 5%. Esta lista inclui inglês (com uma taxa de precisão de 97%), francês, alemão, hindi, indonésio, japonês, canarês, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com altas (5% a 10% de taxa de erro de palavras), boas (10% a 20% de taxa de erro de palavras) e moderadas (25% a 50%) taxas de erro de palavras.

A empresa afirmou que o modelo superou o Google Gemini 2.0 Flash e o Whisper Large V3 em múltiplas linguagens nos testes de benchmark FLEURS & Common Voice.

A ElevenLabs desenvolveu o componente de conversão de fala para texto para sua plataforma de agente conversacional baseada em IA, que foi lançada no ano passado. No entanto, esta é a primeira vez que a empresa está lançando um modelo de detecção de fala autônomo. Em uma conversa com a TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre as melhorias nos modelos de detecção de fala.

“Queremos entender melhor o que está sendo dito em uma conversa. Estamos trabalhando em maneiras de nos afastar apenas da geração de conteúdo e focar na compreensão e transcrição da fala,” disse Staniszewski na ocasião. “Muitas pessoas afirmam que a conversão de fala para texto é um problema resolvido. Mas para muitos idiomas, é bastante insatisfatório. Acreditamos que podemos construir modelos de detecção de fala melhores porque temos equipes internas para anotar dados e nos dar feedback rápido.”

O modelo também conta com diarização inteligente de falantes para identificar quem está falando, timestamp em nível de palavra para legendas precisas, e auto-tagging de eventos sonoros como risadas da audiência. A startup oferece uma maneira para os clientes transcreverem conteúdo de vídeo diretamente para adicionar legendas em seu estúdio.

Atualmente, o Scribe funciona apenas com formatos de áudio pré-gravados. A empresa afirmou que lançará em breve uma versão de baixo atraso em tempo real do modelo. Isso significa que ainda não é eficaz para transcrições de reuniões ou para anotações de voz.

A ElevenLabs está cobrando $0,40 por uma hora de áudio transcrito com o Scribe. Embora a tarifa seja competitiva, alguns de seus rivais oferecem preços mais baixos por transcrições de áudio atualmente, com algumas diferenças de recursos.