Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais


Hume AI, a startup especializada em interfaces de voz emocionalmente inteligentes, lançou o Voice Control, uma funcionalidade experimental que capacita desenvolvedores e usuários a criarem vozes de IA personalizadas por meio da modulação precisa das características vocais — sem necessidade de programação, engenharia de prompt de IA ou habilidades de design sonoro.

Esse lançamento baseia-se na fundação estabelecida pela anterior Interface de Voz Empática 2 (EVI 2), que introduziu capacidades avançadas de naturalidade, resposta emocional e personalização.

Tanto EVI 2 quanto Voice Control evitam os riscos da clonagem de voz, uma prática que Cowen afirmou carregar desafios éticos e práticos.

Em vez disso, a Hume foca em fornecer ferramentas para criar vozes únicas e expressivas que atendem às necessidades dos usuários, como chatbots de atendimento ao cliente, assistentes digitais, tutores, guias ou recursos de acessibilidade.

A transição das vozes de IA predefinidas para soluções personalizadas

O Voice Control oferece aos desenvolvedores a capacidade de ajustar vozes em 10 dimensões distintas, incluindo:

“Masculino/Feminino: A vocalização de gênero, variando entre mais masculino e mais feminino.

Assertividade: A firmeza da voz, variando entre tímido e ousado.

Leveza: A densidade da voz, variando entre murcha e leve.

Confiança: A segurança da voz, variando entre tímido e confiante.

Entusiasmo: A excitação na voz, variando entre calma e entusiasmada.

Nasatividade: A abertura da voz, variando entre clara e nasal.

Relaxamento: O estresse na voz, variando entre tenso e relaxado.

Suavidade: A textura da voz, variando entre suave e staccato.

Temperamento: A vivacidade da voz, variando entre morna e enérgica.

Compressão: A contenção da voz, variando entre apertada e arejada.”

Essa ferramenta sem código permite que usuários ajustem os atributos vocais em tempo real através de deslizadores virtuais na tela. Atualmente, está disponível no playground virtual da Hume, que requer um cadastro gratuito para acesso.

O lançamento aborda um ponto crítico na indústria de IA: a dependência de vozes predefinidas, que muitas vezes falham em atender às necessidades específicas de marcas ou aplicativos, ou os riscos associados à clonagem de voz.

Esse foco na personalização alinha-se com o objetivo mais amplo da Hume de desenvolver IA de voz emocionalmente sutil.

Os esforços da empresa para avançar a IA vocal foram destacados em setembro de 2024, com o lançamento do EVI 2, que a empresa descreveu como uma atualização significativa em relação ao seu predecessor.

O EVI 2 melhorou a latência em 40%, reduziu os custos em 30% e expandiu as características de modulação de voz, oferecendo aos desenvolvedores uma alternativa mais segura à clonagem de voz.

Deslizadores > prompts de texto

A abordagem orientada por pesquisa da Hume desempenha um papel central no desenvolvimento de seus produtos. A empresa, co-fundada pelo ex-Google DeepMind Alan Cowen, utiliza um modelo proprietário baseado em gravações de voz interculturais emparelhadas com dados de pesquisas emocionais.

Essa metodologia, enraizada na ciência das emoções, forma a espinha dorsal tanto do EVI 2 quanto do recém-lançado Voice Control.

O Voice Control estende esses princípios abordando as maneiras granuladas, frequentemente inefáveis, pelas quais os humanos percebem vozes.

A interface baseada em deslizadores da ferramenta reflete qualidades perceptuais comuns da voz, como leveza ou assertividade, sem tentar simplificar demais esses atributos por meio de prompts baseados em texto.

O Voice Control está imediatamente disponível em beta e se integra com a Interface de Voz Empática (EVI) da Hume, tornando-o acessível para uma ampla gama de aplicativos.

Os desenvolvedores podem selecionar uma voz base, ajustar suas características e visualizar os resultados em tempo real. Esse processo garante a reprodutibilidade e estabilidade entre as sessões, características essenciais para aplicativos em tempo real, como bots de atendimento ao cliente ou assistentes virtuais.

A influência do EVI 2 é evidente nas capacidades do Voice Control. O modelo anterior introduziu recursos como prompts em conversas e capacidades multilíngues, que ampliaram o escopo das aplicações de IA de voz.

Por exemplo, o EVI 2 suporta tempos de resposta sub-segundo, permitindo conversas naturais e imediatas. Ele também permite ajustes dinâmicos no estilo de fala durante as interações, tornando-o uma ferramenta versátil para empresas.

Diferenciação em um mercado competitivo

A o foco da Hume na personalização de voz e inteligência emocional a posiciona como uma forte concorrente no espaço de IA de voz, mesmo diante de rivais bem financiados como OpenAI com seu Modo de Voz Avançado e ElevenLabs, que oferecem bibliotecas de vozes predefinidas.

A Hume continua a construir sobre sua abordagem inovadora à IA de voz. Os planos para expandir o Voice Control incluem a introdução de dimensões adicionais que podem ser modificadas, refinando a qualidade da voz sob ajustes extremos e aumentando a gama de vozes base disponíveis.

Com o lançamento do Voice Control, a Hume reforça sua posição como líder em inovação de IA vocal, oferecendo ferramentas que priorizam a personalização, inteligência emocional e adaptabilidade em tempo real. Os desenvolvedores podem acessar o Voice Control hoje através da plataforma da Hume, marcando mais um passo à frente na evolução das soluções de voz impulsionadas por IA.





    um × 3 =




    Bolt42