Hume lança novo modelo de texto-para-fala Octave que gera vozes de IA personalizadas com emoções ajustáveis

Junte-se aos nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder no setor. Saiba mais

A startup Hume AI de Nova Iorque emergiu do modo stealth há dois anos e desde então levantou milhões em financiamento com base em sua tecnologia que cria vozes emotivas de IA para uso em aplicações empresariais.

Hoje, está avançando suas ofertas com um novo modelo de linguagem e voz, chamado de “motor de texto e voz onipresente”, ou Octave para abreviar, projetado para produzir fala realista e emocionalmente nuanceada para ser usada em diferentes formas de conteúdo, desde audiolivros até diálogos de personagens de videogames gravados e filmes/TV/vídeo.

A Hume afirma que o Octave é o primeiro sistema de texto-para-fala (TTS) acionado por um grande modelo de linguagem (LLM) treinado não apenas em texto, mas também em tokens de fala e emoção, permitindo que ele compreenda palavras em contexto e ajuste tom, ritmo e cadência de acordo — e que o usuário pode ajustar no nível da frase com comandos de texto.

“Estamos lançando o primeiro LLM para texto-para-fala — um modelo que entende palavras em contexto, prevendo as emoções, o ritmo, a cadência e a ênfase corretas, tornando a fala mais humana do que nunca”, disse Alan Cowen, cofundador e CEO da Hume AI, em uma entrevista por videochamada com a VentureBeat.

As capacidades do Octave vão além da geração básica de voz. Ele pode interpretar características e estilo de um roteiro sozinha, ajustando as inflexões vocais para corresponder às emoções implícitas. Uma observação sarcástica será pronunciada de forma sarcástica, uma frase em pânico soará urgente, e um segredo sussurrado será pronunciado em um tom baixo — tudo isso sem precisar de direcionamento explícito.

Além disso, se o usuário não gostar da voz gerada ou quiser ajustá-la, pode fazer isso de forma granular através de linguagem natural, digitando uma instrução em texto para o Octave, como “mais feliz, mais triste, mais frustrado, mais zangado, mais sarcástico, mais sincero”, etc.

“Você pode descrever um personagem — como um camponês medieval sarcástico — e o modelo criará instantaneamente essa voz, ajustando emoções como raiva, tristeza ou felicidade com base em suas instruções”, acrescentou Cowen. “A modulação de voz funciona no nível da frase, mas você também pode ajustar partes de uma frase, instruindo o modelo a transmitir emoções sutis, como leve frustração misturada com humor ou exasperação.”

O modelo também considera o contexto além de sentenças individuais. “Ao contrário dos modelos tradicionais que processam texto palavra por palavra, nosso modelo considera parágrafos inteiros, capturando contexto para fornecer uma fala mais natural e emocionalmente precisa”, explicou.

Pese embora o lançamento atual se concentre na fala em inglês, Octave também suporta espanhol e deve expandir suas capacidades linguísticas em um futuro próximo.

Projetado para criação de conteúdo

O Octave é especialmente adequado para criadores de conteúdo e produção de mídia, oferecendo uma ampla gama de aplicações.

“Este novo modelo foi criado para texto-para-fala offline — perfeito para audiolivros, podcasts, narrações de vídeo e personagens de videogames — onde os criadores precisam de vozes realistas e específicas para cada personagem”, explicou Cowen.

No entanto, o usuário deve acessá-lo através do site da Hume, seja na sua página de Projetos ou através de uma interface de programação de aplicativos (API). O componente “offline” refere-se ao fato de que esse modelo foi projetado para produzir arquivos de áudio discretos que podem ser adicionados a projetos como vídeos ou audiolivros. Ele não foi projetado para manter uma conversa em tempo real, embora teoricamente isso possa ser permitido ao inserir consultas de texto no site.

A API da Hume permite que desenvolvedores façam até 50 solicitações do novo modelo Octave por minuto, com um comprimento máximo de texto de 5.000 caracteres e descrições limitadas a 1.000 caracteres. Cada solicitação pode gerar até cinco saídas, e os formatos de áudio suportados incluem MP3, WAV e PCM.

A série de modelos EVI anterior da Hume permite interações em tempo real e streaming. Eles continuam disponíveis e serão desenvolvidos.

A Hume AI oferece um modelo de preços baseado em assinatura, com níveis que vão desde uma opção gratuita até planos Creator, Creator Pro e Enterprise.

Aqui está um resumo conciso das ofertas:

Gratuito ($0/mês) – 10.000 caracteres de texto-para-fala por mês (~10 minutos) com vozes personalizadas ilimitadas
Iniciante ($3/mês) – 30.000 caracteres (~30 minutos) mais suporte para até 20 projetos
Creator ($10/mês) – 100.000 caracteres (~100 minutos), preços baseados no uso para caracteres extras ($0,20/1.000), e suporte para até 1.000 projetos
Pro ($50/mês) – 500.000 caracteres (~500 minutos), preços baseados no uso mais baixos ($0,15/1.000), e suporte para até 3.000 projetos
Scale ($150/mês) – 2.000.000 caracteres (~2.000 minutos), preços baseados no uso ainda mais reduzidos ($0,13/1.000), e suporte para até 10.000 projetos
Business ($900/mês) – 10.000.000 caracteres (~10.000 minutos), preços baseados no uso significativamente mais baixos ($0,10/1.000), e suporte para até 20.000 projetos
Enterprise (preço personalizado) – Uso ilimitado, termos legais personalizados, garantias de segurança, preços em massa significativamente descontados e suporte prioritário

No geral, a Hume enfatizou que seu preço TTS Octave está em torno da metade do custo do serviço concorrente da startup de criação de voz AI ElevenLabs, mostrando a competição crescente no espaço de texto-para-fala.

Além disso, a Hume AI realizou um estudo comparativo cego com 180 avaliadores humanos para avaliar o Octave em comparação com o ElevenLabs. Os resultados mostraram que o Octave foi preferido em termos de qualidade de áudio (71,6% das tentativas), naturalidade (51,7% das tentativas) e quão bem a fala correspondia às descrições da voz desejada (57,7% das tentativas), ao longo de 120 prompts diversos.

Para avaliar ainda mais seu desempenho, a Hume AI também lançou a Arena de TTS Expressivo, um benchmark público projetado para testar como os modelos de IA lidam com fala longa e expressiva – uma área que benchmarks anteriores de TTS em grande parte ignoraram.

Dezenas de trilhões de tokens de linguagem

Diferente dos sistemas tradicionais de texto-para-fala que dependem de conjuntos de dados de fala limitados, o Octave TTS é construído sobre um LLM treinado em dezenas de trilhões de tokens de linguagem.

“Os modelos tradicionais de texto-para-fala são treinados em dados de fala limitados, mas o nosso é construído sobre um LLM treinado em dezenas de trilhões de tokens, permitindo que ele raciocine, pense e infira emoções a partir do texto”, disse Cowen.

O modelo foi treinado usando milhões de horas de dados de fala longas e públicas, além dos conjuntos de dados proprietários de novas vozes gravadas por participantes da pesquisa.

“Coletamos dados de pessoas gravando a si mesmas através de webcams, reagindo naturalmente a vídeos, contando histórias e conversando com outros, incluindo amigos e familiares, para capturar uma ampla gama de expressões emocionais,” disse Cowen.

Esse treinamento extenso permite que o modelo infira o contexto emocional e siga instruções detalhadas, criando vozes que correspondem a descrições e atributos de personagens específicos.

Vozes de personagens consistentes e limitações

O Octave TTS mantém vozes de personagens consistentes em conteúdos longos.

“Com nossa plataforma, você pode gerar vozes únicas para cada personagem em um audiolivro — como um orc de meia-idade — e manter a voz desse personagem ao longo da história,” disse Cowen.

Essa capacidade é suportada pela página de “Projetos” da Hume, que lida com conteúdo longo, como audiolivros, automaticamente fragmentando o texto enquanto preserva a consistência e o contexto do personagem entre os capítulos.

A Hume tem barreiras técnicas incorporadas em seu site e API que proíbem certos usos, mas além disso, está aberta a uso em uma ampla gama de conteúdos e assuntos, incluindo cenas potencialmente inadequadas para o trabalho, como aquelas em romances populares.

“Damos liberdade aos desenvolvedores, permitindo conteúdo em uma ampla gama de experiências humanas, embora restrinjamos a criação de vozes de crianças realistas e imitações de indivíduos específicos,” explicou Cowen.

Além disso, Cowen disse que a empresa poderia ajustar essas barreiras para clientes específicos mediante solicitação, como um editor de livros infantis que procura criar vozes para audiolivros infantis.

A Hume AI está trabalhando em um próximo recurso de Clonagem de Voz, que permitirá que os usuários repitam uma voz a partir de apenas cinco segundos de áudio. A empresa está desenvolvendo salvaguardas para garantir o uso ético antes de disponibilizar o recurso publicamente.

Com sua combinação de consciência contextual, expressão emocional e personalização de personagens, o Octave TTS visa proporcionar aos criadores de conteúdo mais controle e flexibilidade, entregando vozes que soam tanto realistas quanto emocionalmente envolventes.

Insights diários sobre casos de uso de negócios com VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins da VB aqui.

Ocorreu um erro.