A Amazon revela um novo modelo de voz com inteligência artificial, Nova Sonic.

Na terça-feira, a Amazon apresentou um novo modelo de IA generativa, o Nova Sonic, capaz de processar voz nativamente e gerar fala natural. A Amazon afirma que o desempenho do Sonic é competitivo com modelos de voz de ponta da OpenAI e do Google em benchmarks que medem velocidade, reconhecimento de fala e qualidade de conversação.

O Nova Sonic é a resposta da Amazon a modelos de voz de IA mais recentes, como o modelo que alimenta o Modo de Voz do ChatGPT, que parece mais natural na fala do que os modelos mais rígidos dos primeiros dias da Amazon Alexa. Avanços tecnológicos recentes tornaram os modelos legados e os assistentes digitais que os sustentam, como a Alexa e a Siri da Apple, extremamente rígidos em comparação.

O Nova Sonic está disponível através do Bedrock, a plataforma de desenvolvedores da Amazon para construir aplicações de IA empresariais, por meio de uma nova API de streaming bidirecional. Em um comunicado à imprensa, a Amazon chamou o Nova Sonic de “o modelo de voz de IA mais custo-efetivo” do mercado, sendo cerca de 80% mais barato do que o GPT-4o da OpenAI.

Componentes do Nova Sonic já estão impulsionando a Alexa+, a assistente digital de voz aprimorada da Amazon, de acordo com Rohit Prasad, SVP e Cientista-Chefe de AGI da Amazon.

Em uma entrevista, Prasad disse ao TechCrunch que o Nova Sonic se baseia na experiência da Amazon em “sistemas de orquestração grandes”, a estrutura técnica que compõe a Alexa. Em comparação com modelos de voz de IA concorrentes, o Nova Sonic se destaca em roteirizar solicitações de usuários para diferentes APIs, disse Prasad. Essa capacidade ajuda o Nova Sonic a “saber” quando precisa buscar informações em tempo real na internet, analisar uma fonte de dados proprietária ou tomar ação em um aplicativo externo — e usar a ferramenta apropriada para fazê-lo.

Durante um diálogo bidirecional, o Nova Sonic espera para falar “no momento apropriado”, levando em consideração pausas e interrupções do falante, segundo a Amazon. Ele também gera uma transcrição de texto para a fala do usuário, que os desenvolvedores podem usar para várias aplicações.

O Nova Sonic é menos propenso a erros de reconhecimento de fala do que outros modelos de voz de IA, segundo Prasad, o que significa que o modelo é relativamente bom em compreender a intenção de um usuário, mesmo se ele murmurar, errar ou estiver em um ambiente barulhento. Em um benchmark que mede o reconhecimento de fala em várias línguas e dialetos, o Multilingual LibriSpeech, a Amazon afirma que o Nova Sonic alcançou uma taxa de erro de palavras (WER) de apenas 4,2% quando média entre inglês, francês, italiano, alemão e espanhol. Isso significa que aproximadamente quatro a cada 100 palavras do modelo diferiram de uma transcrição humana nessas línguas.

Em outro benchmark que mede interações ruidosas com múltiplos participantes, o Augmented Multi Party Interaction, a Amazon afirma que o Nova Sonic foi 46,7% mais preciso em termos de WER do que o modelo transcribe do GPT-4o da OpenAI. O Nova Sonic também tem uma velocidade líder da indústria, com uma latência percebida média de 1,09 segundos, segundo a Amazon. Isso o torna mais rápido do que o modelo GPT-4o que alimenta a API em Tempo Real da OpenAI, que responde em 1,18 segundos, de acordo com a análise de Artificial Analysis.

Prasad afirma que o Nova Sonic faz parte da estratégia mais ampla da Amazon para construir AGI (inteligência geral artificial), que a empresa define como “sistemas de IA que podem fazer qualquer coisa que um humano pode fazer em um computador.” No futuro, Prasad diz que a Amazon planeja lançar mais modelos de IA que possam entender diferentes modalidades, incluindo imagem, vídeo e voz, além de “outros dados sensoriais relevantes ao trazer coisas para o mundo físico.”

A divisão de AGI da Amazon, que Prasad supervisiona, parece estar desempenhando um papel maior na estratégia de produtos da empresa atualmente. Na semana passada, a Amazon lançou uma prévia do Nova Act, um modelo de IA que utiliza o navegador e que parece estar impulsionando elementos da Alexa+ e do recurso Comprar para Mim da Amazon. A partir do Nova Sonic, Prasad afirma que a empresa deseja oferecer mais de seus modelos de IA internos para os desenvolvedores utilizarem.