Voice AI That Delivers: New TTS Model Increases Sales by 15% for Leading Brands in Portuguese

Certainly! Here’s the rewritten content in Portuguese while retaining the HTML tags:
<div>
    <div id="boilerplate_2682874" class="post-boilerplate boilerplate-before"><!-- wp:paragraph -->
<p><em>Junte-se ao evento confiado por líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que estão construindo uma verdadeira estratégia de IA empresarial. <a target="_blank" href="http://vbtransform.com/" target="_blank" rel="noreferrer noopener">Saiba mais</a></em></p>
<!-- /wp:paragraph -->

<!-- wp:separator {"opacity":"css","className":"is-style-wide"} -->
<hr class="wp-block-separator has-css-opacity is-style-wide"/>
<!-- /wp:separator --></div><p>Criar vozes que não sejam apenas humanizadas e nuançadas, mas <em>diversas</em>, continua a ser um desafio na IA conversacional.</p>

<p>No final das contas, as pessoas querem ouvir vozes que soem como as delas ou que sejam, pelo menos, naturais, e não apenas o padrão de transmissão americano do século 20.</p>

<p>A startup <a target="_blank" href="https://www.rime.ai/" target="_blank" rel="noreferrer noopener">Rime</a> está enfrentando esse desafio com o Arcana, um modelo de texto-para-fala (TTS) que pode gerar rapidamente "inúmeras" novas vozes de diferentes gêneros, idades, demografia e idiomas com base em uma simples descrição de texto das características desejadas.</p>

<p>O modelo ajudou a aumentar as vendas de clientes — como Domino’s e Wingstop — em 15%.</p>

<p>“É uma coisa ter um modelo de alta qualidade, que soa como uma pessoa real”, disse Lily Clifford, CEO e cofundadora da Rime, ao VentureBeat. “É outra ter um modelo que pode criar não apenas uma voz, mas uma infinidade de variabilidade de vozes ao longo de linhas demográficas.”</p>

<h2 class="wp-block-heading" id="h-a-voice-model-that-acts-human-nbsp">Um modelo de voz que ‘age como humano’</h2>

<p>O modelo TTS multimodal e autoregressivo da Rime foi treinado em conversas naturais com pessoas reais (em vez de atores de voz). Os usuários simplesmente digitam uma descrição de texto de uma voz com características demográficas e idioma desejados.</p>

<p>Por exemplo: 'Quero uma mulher de 30 anos que vive na Califórnia e gosta de software', ou 'Dê-me a voz de um homem australiano.'</p>

<figure class="wp-block-image size-large"><img fetchpriority="high" decoding="async" width="955" height="353" src="https://venturebeat.com/wp-content/uploads/2025/06/Screenshot-51.png?w=800" alt="" class="wp-image-3010541"  /></figure>

<p>“Cada vez que você faz isso, você obterá uma voz diferente”, disse Clifford.</p>

<p>O modelo Mist v2 TTS da Rime foi criado para aplicações de alto volume e críticas para os negócios, permitindo que as empresas criem vozes únicas para suas necessidades. “O cliente ouve uma voz que permite uma conversa natural e dinâmica sem precisar de um agente humano”, afirmou Clifford.</p>

<p>Para aqueles que procuram opções prontas, a Rime oferece oito vozes principais com características únicas:</p>

<ul class="wp-block-list">
<li>Luna (feminina, tranquila mas animada, otimista da Geração Z)</li>
<li>Celeste (feminina, calorosa, descontraída, amante da diversão)</li>
<li>Orion (masculino, mais velho, afro-americano, feliz)</li>
<li>Ursa (masculino, 20 anos, conhecimento enciclopédico sobre música emo dos anos 2000)</li>
<li>Astra (feminina, jovem, olhos arregalados)</li>
<li>Esther (feminina, mais velha, chinesa-americana, carinhosa)</li>
<li>Estelle (feminina, de meia-idade, afro-americana, soa tão doce)</li>
<li>Andromeda (feminina, jovem, ofegante, vibrações de yoga)</li>
</ul>

<p>O modelo tem a capacidade de alternar entre idiomas e pode sussurrar, ser sarcástico e até zombar. O Arcana também pode inserir risadas na fala quando recebe o token <laugh>. Isso pode gerar saídas variadas e realistas, desde "uma pequena risada até uma grande gargalhada", diz a Rime. O modelo também consegue interpretar <chuckle>, <sigh> e até <hum> corretamente, mesmo sem ter sido treinado explicitamente para tal.</hum></sigh></chuckle></laugh></p>

<p>“Ele infere emoções a partir do contexto”, escreve a Rime em um artigo técnico. “Ele ri, suspira, canta, respira audivelmente e faz ruídos sutis da boca. Diz 'hum' e outras desfluências naturalmente. Possui comportamentos emergentes que ainda estamos descobrindo. Em suma, 'age como humano'.”</p>

<h2 class="wp-block-heading" id="h-capturing-natural-conversations">Capturando conversas naturais</h2>

<p>O modelo da Rime gera tokens de áudio que são decodificados em fala usando uma abordagem baseada em codec, que a Rime afirma proporcionar “sintetização mais rápida do que o tempo real.” Na sua estreia, o tempo até o primeiro áudio foi de 250 milissegundos e a latência na nuvem pública foi de aproximadamente 400 milissegundos.</p>

<p>O Arcana foi treinado em três etapas:</p>

<ul class="wp-block-list">
<li>Pré-treinamento: A Rime usou modelos de linguagem de código aberto (LLMs) como base e pré-treinou em um grande conjunto de pares de texto-áudio para ajudar o Arcana a aprender padrões linguísticos e acústicos gerais.</li>
<li>Aprimoramento supervisionado com um conjunto de dados “massivo” proprietário.</li>
<li>Aprimoramento específico do falante: A Rime identificou os falantes que considerou “mais exemplares” entre seu conjunto de dados, conversas e confiabilidade.</li>
</ul>

<p>Os dados da Rime incorporam técnicas de conversa sociolinguística (considerando contextos sociais como classe, gênero, localização), idioleto (hábitos de fala individuais) e nuances paralinguísticas (aspectos não verbais da comunicação que acompanham a fala).</p>

<p>O modelo também foi treinado em sutilezas de sotaque, palavras de preenchimento (aquelas 'uhs' e 'ums' subconscientes) bem como pausas, padrões de estresse prosódico (intonacão, temporização, ênfase em certas sílabas) e troca de código multilíngue (quando falantes multilíngues alternam entre idiomas).</p>

<p>A empresa adotou uma abordagem única para coletar todos esses dados. Clifford explicou que, normalmente, os construtores de modelos reúnem fragmentos de atores de voz e, em seguida, criam um modelo para reproduzir as características da voz daquela pessoa com base na entrada de texto. Ou, coletam dados de audiolivros.</p>

<p>“Nossa abordagem foi muito diferente”, explicou. “Foi: ‘Como criamos o maior conjunto de dados proprietário de fala conversacional do mundo?’”</p>

<p>Para isso, a Rime construiu seu próprio estúdio de gravação em um porão em San Francisco e passou vários meses recrutando pessoas pelo Craigslist, por meio de boca a boca ou simplesmente reunindo amigos e familiares. Em vez de conversas roteirizadas, elas gravaram conversas e bate-papos naturais.</p>

<p>Em seguida, anotaram as vozes com metadados detalhados, codificando gênero, idade, dialeto, afeto na fala e idioma. Isso permitiu à Rime alcançar 98 a 100% de precisão.</p>

<p>Clifford observou que eles estão constantemente aumentando esse conjunto de dados.</p>

<p>“Como fazemos para soar pessoal? Você nunca vai chegar lá se apenas usar atores de voz”, disse ela. “Fizemos a coisa incrivelmente difícil de coletar dados realmente naturalistas. O enorme segredo da Rime é que essas não são vozes de atores. Essas são pessoas reais.”</p>

<h2 class="wp-block-heading" id="h-a-personalization-harness-that-creates-bespoke-voices">Uma ‘ferramenta de personalização’ que cria vozes sob medida</h2>

<p>A Rime pretende dar aos clientes a capacidade de encontrar vozes que funcionem melhor para sua aplicação. Eles construíram uma ferramenta chamada “ferramenta de personalização” para permitir que os usuários realizem testes A/B com várias vozes. Após uma dada interação, a API retorna à Rime, que fornece um painel de análises identificando as vozes de melhor desempenho com base em métricas de sucesso.</p>

<p>É claro que os clientes têm definições diferentes do que constitui uma chamada bem-sucedida. No serviço de alimentação, isso pode significar empurrar uma ordem de batatas fritas ou asas extras.</p>

<p>“Nosso objetivo é como criar uma aplicação que facilite para nossos clientes executar esses experimentos por conta própria?”, disse Clifford. “Porque nossos clientes não são diretores de elenco de vozes, nem nós. O desafio é como tornar essa camada de análise de personalização realmente intuitiva.”</p>

<p>Outro KPI que os clientes estão maximizando é a disposição do chamador em falar com a IA. Eles descobriram que, ao mudar para a Rime, os chamadores têm 4 vezes mais chances de falar com o bot.</p>

<p>“Pela primeira vez, as pessoas estão dizendo: ‘Não, você não precisa me transferir. Estou perfeitamente disposto a falar com você’”, disse Clifford. “Ou, quando são transferidos, eles dizem 'Obrigado'.” (20%, de fato, são cordiais ao finalizar conversas com um bot).</p>

<h2 class="wp-block-heading" id="h-powering-100-million-calls-a-month">Gerando 100 milhões de chamadas por mês</h2>

<p>A Rime conta entre seus clientes Domino’s, Wingstop, Converse Now e Ylopo. Eles realizam muito trabalho com grandes centros de contato, desenvolvedores empresariais que constroem sistemas de resposta de voz interativa (IVR) e telecomunicações, observou Clifford.</p>

<p>“Quando mudamos para a Rime, vimos uma melhoria imediata de dois dígitos na probabilidade de nossas chamadas terem sucesso”, disse Akshay Kayastha, diretor de engenharia da ConverseNow. “Trabalhar com a Rime significa resolver uma tonelada dos problemas de última milha que surgem ao enviar uma aplicação de alto impacto.”</p>

<p>Ylopo CPO Ge Juefeng observou que, para a aplicação de outbound de alto volume da empresa, eles precisam construir confiança imediata com o consumidor. “Testamos todos os modelos disponíveis no mercado e descobrimos que as vozes da Rime converteram clientes com a maior taxa”, relatou.</p>

<p>A Rime já está ajudando a gerar cerca de 100 milhões de chamadas telefônicas por mês, disse Clifford. “Se você ligar para a Domino’s ou Wingstop, há 80 a 90% de chances de você ouvir uma voz da Rime”, afirmou.</p>

<p>Olhando para o futuro, a Rime pretende avançar mais nas ofertas locais para suportar baixa latência. Na verdade, eles antecipam que, até o final de 2025, 90% de seu volume estará no local. “A razão para isso é que você nunca será tão rápido se estiver executando esses modelos na nuvem”, disse Clifford.</p>

<p>Além disso, a Rime continua a aprimorar seus modelos para enfrentar outros desafios linguísticos. Por exemplo, frases que o modelo nunca encontrou, como a complicada “Meatza ExtravaganZZa” da Domino’s. Como observou Clifford, mesmo que uma voz seja personalizada, natural e responda em tempo real, ela vai falhar se não conseguir lidar com as necessidades únicas de uma empresa.</p>

<p>“Ainda existem muitos problemas que nossos concorrentes veem como problemas de última milha, mas que nossos clientes veem como problemas de primeira milha”, disse Clifford.</p>

<div id="boilerplate_2660155" class="post-boilerplate boilerplate-after"><!-- wp:shortcode -->
        <div class="Boilerplate__newsletter-container vb">
            <div class="Boilerplate__newsletter-main">
                <p><strong>Insights diários sobre casos de uso empresarial com o VB Daily</strong></p>
                <p class="copy">Se você quiser impressionar seu chefe, o VB Daily tem o que você precisa. Oferecemos informações detalhadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.</p>

                <p class="Form__newsletter-legal">Leia nossa Política de Privacidade</p>
                <p class="Form__success" id="boilerplateNewsletterConfirmation">
                    Obrigado por se inscrever. Confira mais newsletters do VB aqui.
                </p>
                <p class="Form__error">Ocorreu um erro.</p>
            </div>

                            <div class="image-container">
                    <img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt=""/>
                </div>

        </div>

<!-- /wp:shortcode --></div>         
</div>
Feel free to adjust any specific terms used in the text!
Conteúdo relacionado

Inteligência artificial
Seguro de Responsabilidade Civil para IA: O Próximo Passo para Proteger Negócios de Falhas em IA

[the_ad id="145565"] As empresas hoje dependem fortemente da Inteligência Artificial (IA) para executar tarefas importantes, como lidar com perguntas de clientes, identificar…
BusinessInteligência artificial
Google afirma que a prévia do Gemini 2.5 Pro supera o DeepSeek R1 e o Grok 3 Beta em desempenho de programação.

[the_ad id="145565"] Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira…
BusinessInteligência artificial
AMD contrata os funcionários por trás da Untether AI

[the_ad id="145565"] A AMD continua sua onda de aquisições. A gigante de semicondutores AMD adquiriu a equipe por trás da Untether AI, uma startup que desenvolve chips de…