Bolt42

Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre tecnologia de ponta em IA. Saiba mais


A Amazon é mais conhecida como uma gigante do e-commerce e, em seguida, em algum lugar talvez um pouco mais abaixo na lista de ofertas notáveis, está seu produto de assistente de voz com IA, Alexa, que recebeu uma grande atualização de inteligência no mês passado, em parte graças ao Amazon Nova e ao investimento da Amazon na Anthropic.

Agora, a Alexa terá que fazer espaço para um novo irmão de IA de voz da Amazon: hoje, a empresa está apresentando o Amazon Nova Sonic, um novo modelo fundamental projetado para permitir que desenvolvedores de aplicativos de terceiros criem interatividade de voz conversacional natural e em tempo real para seus produtos usando a plataforma web da Amazon, Bedrock.

Está disponível agora por meio de uma interface de programação de aplicativos (API) de streaming bidirecional. E, na verdade, a Amazon já incorporou algumas partes dele — um codificador de fala que fornece representação e um sintetizador de fala — no novo modelo da Alexa, Alexa+.

“Essa abordagem nos permite trazer os benefícios de nossas tecnologias de fala para diferentes casos de uso simultaneamente, enquanto continuamos a evoluir ambos os sistemas com base no feedback dos clientes e nos avanços tecnológicos,” nos contou um porta-voz.

Casos de uso óbvios incluem suporte e serviço ao cliente, orientação, recuperação de informações e entretenimento.

Uma abordagem unificada

O Nova Sonic aborda um desafio chave na IA de voz: a fragmentação das tecnologias.

Tradicionalmente, construir interfaces de voz exigia a combinação de modelos separados para reconhecimento de fala, processamento de linguagem e síntese de fala, de acordo com Rohit Prasad, SVP e Cientista Chefe de Inteligência Geral Artificial (AGI) na Amazon, em uma entrevista por vídeo com a VentureBeat ontem usando o serviço de vídeo Chime da Amazon.

Essa complexidade muitas vezes resulta em interações robóticas e não naturais e aumenta os custos de desenvolvimento.

Agora, o Sonic busca melhorar essa situação combinando os três tipos de modelos distintos em um só.

Prasad explicou a inovação central do modelo: “O Nova Sonic junta três modelos tradicionalmente separados—fala-para-texto, compreensão de texto e texto-para-fala—em um único sistema unificado que pode modelar não apenas o ‘o que’, mas também o ‘como’ da comunicação.”

Retendo o contexto acústico—como tom, cadência e estilo—o Nova Sonic ajuda a manter as nuances da conversa humana.

Reconhecendo as complexidades e peculiaridades das conversas de áudio bidirecionais ao vivo

Uma das capacidades definidoras do Nova Sonic é sua habilidade de lidar com conversas ao vivo e bidirecionais. Ele reconhece quando os usuários fazem pausas, hesitam ou interrompem—comportamentos comuns na fala humana—e responde de forma fluida enquanto mantém o contexto.

“A verdadeira inovação aqui é a interação vocal de baixa latência e em tempo real, o que significa que você pode interromper a IA no meio da frase, e ela ainda manterá o contexto e responderá de forma coerente,” disse Prasad. Este recurso é especialmente relevante em cenários como o atendimento ao cliente, onde a capacidade de resposta e a adaptabilidade são críticas.

O Nova Sonic também foi projetado para integrar-se perfeitamente a outros sistemas. Ele gera automaticamente transcrições da entrada falada, que podem ser usadas para acionar APIs ou interagir com ferramentas proprietárias. Isso permite que as empresas construam agentes de IA que podem realizar tarefas como agendar compromissos, recuperar informações em tempo real ou responder a consultas complexas de clientes.

“Você pode usar o Nova Sonic através do Amazon Bedrock e conectá-lo a quaisquer ferramentas ou fontes de dados proprietárias, até mesmo visuais, contanto que estejam disponíveis como APIs chamáveis,” disse Prasad. Essa flexibilidade torna o modelo adequado para uma ampla gama de setores, desde educação e viagens até operações empresariais e entretenimento.

Desempenho e comparações no setor

O Nova Sonic foi avaliado em comparação com outros modelos de voz em tempo real, incluindo o GPT-4o da OpenAI e o Gemini Flash 2.0 do Google. No conjunto de dados Common Eval, alcançou uma taxa de sucesso de 69.7% sobre o Gemini Flash 2.0 e uma taxa de sucesso de 51.0% sobre o GPT-4o para conversas de uma única interação em inglês americano usando uma voz masculina. Ganhos semelhantes foram observados com vozes femininas e britânicas.

Prasad enfatizou o forte desempenho do Nova Sonic em seus principais mercados linguísticos: “O Nova Sonic é atualmente o melhor da categoria em inglês americano e britânico, superando até mesmo o GPT-4o em tempo real em naturalidade e precisão conversacional.” Ele acrescentou: “Até onde sabemos, apenas outros dois modelos—GPT-4o em tempo real e uma variante do GPT-4o mini—se aproximam do que o Nova Sonic faz ao combinar compreensão de fala e geração em tempo real. Este espaço ainda é muito novo e desafiador.”

Capacidades multilíngues e manuseio de ambientes ruidosos

Em reconhecimento de fala, o Nova Sonic também se destaca em condições multilíngues e do mundo real. Registrou uma taxa de erro de palavras (WER) de 4.2% no benchmark Multilingual LibriSpeech, superando o GPT-4o Transcribe em mais de 36% em inglês, francês, alemão, italiano e espanhol. Em ambientes barulhentos e com múltiplas vozes (medidos usando o benchmark AMI), o Nova Sonic mostrou uma melhoria de 46.7% na WER em relação ao GPT-4o Transcribe.

Vozes expressivas e expansão de idiomas

Atualmente, o modelo suporta várias vozes expressivas, tanto masculinas quanto femininas, em inglês americano e britânico. A Amazon observou que novos sotaques e idiomas estão em desenvolvimento e serão lançados em futuras atualizações.

Baixa latência e custo acessível para empresas

A velocidade e o custo também são parte do apelo. A avaliação de terceiros mostra que o Nova Sonic entrega uma latência percebida pelo cliente de 1.09 segundos, em comparação com 1.18 segundos para o GPT-4o da OpenAI e 1.41 segundos para o Gemini Flash 2.0 do Google.

Do ponto de vista de preços, a Amazon posiciona o Nova Sonic como uma solução adequada para empresas. “Estamos quase 80% mais baratos que o GPT-4o em tempo real, e esse desempenho superior em custo está ressoando com empresas que estão passando da experimentação para a implementação,” disse Prasad.

Adoção inicial em setores variados

Segundo a Amazon, empresas de diferentes setores já começaram a usar ou testar o Nova Sonic.

A ASAPP está aplicando a tecnologia para otimizar fluxos de trabalho em centros de contato, elogiando sua precisão e a forma natural de lidar com diálogos.

A Education First (EF) usa o modelo para apoiar alunos de idiomas com feedback de pronúncia em tempo real, especialmente para falantes não nativos com sotaques variados.

O provedor de dados esportivos Stats Perform está aproveitando a baixa latência do Nova Sonic e a configuração simples para impulsionar interações rápidas e ricas em dados em sua plataforma Opta AI Chat.

Compromisso com IA responsável e segurança

Além do desempenho e do custo, a Amazon está destacando seu compromisso com o desenvolvimento responsável da IA. A família de modelos Nova inclui salvaguardas integradas e é apoiada por Cartões de Serviços de IA da AWS que descrevem casos de uso pretendidos, limitações potenciais e diretrizes éticas.

Prasad enfatizou o foco da Amazon em confiança e segurança: “A confiança é essencial para nós—os desenvolvedores podem personalizar a personalidade dentro de limites, mas colocamos guardrails fortes para evitar clonagem de voz ou imitação indesejada.” Ele acrescentou: “Trabalhamos arduamente para eliminar alucinações e desvios de voz. O padrão que estabelecemos para o lançamento é elevado porque a geração de fala deve ser confiável.”

O Amazon Nova Sonic já está disponível geralmente através do Amazon Bedrock. Desenvolvedores e empresas interessados em explorar o modelo podem começar visitando https://aws.amazon.com/nova/.





    vinte − dois =




    Bolt42