Bolt42

Inscreva-se em nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba Mais


OpenAI atualizou sua API Realtime hoje, que atualmente está em fase beta. Esta atualização adiciona novas vozes para aplicações de fala-para-fala em sua plataforma e reduz os custos associados ao cache de prompts.

Usuários beta da API Realtime agora terão cinco novas vozes que podem usar para construir suas aplicações. A OpenAI apresentou três das novas vozes, Ash, Verse e a voz britânica Ballad, em uma postagem no X.

A empresa afirmou em sua documentação da API que o recurso nativo de fala-para-fala “pule [um] formato de texto intermediário significa baixa latência e saída nuançada”, enquanto as vozes são mais fáceis de guiar e mais expressivas do que as vozes anteriores.

No entanto, a OpenAI alerta que não pode oferecer autenticação do lado do cliente para a API agora, uma vez que ainda está em beta. Também afirmou que pode haver problemas com o processamento de áudio em tempo real.

“As condições de rede afetam fortemente o áudio em tempo real, e entregar áudio de forma confiável de um cliente para um servidor em grande escala é desafiador quando as condições da rede são imprevisíveis,” compartilhou a empresa.

A história da OpenAI com voz e fala alimentadas por IA tem sido polêmica. Em março, lançou o Voice Engine, uma plataforma de clonagem de voz para rivalizar com ElevenLabs, mas limitou o acesso a apenas alguns pesquisadores. Em maio, após a empresa demonstrar seu GPT-4o e o Modo de Voz, pausou o uso de uma das vozes, Sky, após a atriz Scarlett Johansson se manifestar sobre sua semelhança com sua voz.

A empresa lançou o Modo de Voz Avançado do ChatGPT para assinantes pagantes (aqueles usando ChatGPT Plus, Enterprise, Teams e Edu) nos EUA em setembro.

A fala-para-fala em IA idealmente permitiria que as empresas construíssem respostas mais em tempo real usando uma voz. Suponha que um cliente ligue para a plataforma de atendimento ao cliente de uma empresa. Nesse caso, a capacidade de fala-para-fala pode captar a voz da pessoa, entender o que estão perguntando e responder usando uma voz gerada por IA com menor latência. A fala-para-fala também permite que os usuários gerem narrações, onde um usuário fala suas linhas, mas a saída de voz não é a deles. Uma plataforma que oferece isso é Replica e, claro, ElevenLabs.

A OpenAI lançou a API Realtime neste mês durante seu Dev Day. A API visa acelerar a construção de assistentes de voz.

Redução de custos

Usar recursos de fala-para-fala, no entanto, pode se tornar caro.

Quando a API Realtime foi lançada, a estrutura de preços estava em $0,06 por minuto de entrada de áudio e $0,24 por saída de áudio, o que não é barato. No entanto, a empresa planeja reduzir os preços da API em tempo real com o cache de prompts.

Entradas de texto em cache terão um desconto de 50%, e entradas de áudio em cache terão um desconto de 80%.

A OpenAI também anunciou o Cache de Prompt durante o Dev Day e manterá contextos e prompts frequentemente solicitados na memória do modelo. Isso reduzirá o número de tokens que precisa criar para gerar respostas. A redução nos preços de entrada pode incentivar mais desenvolvedores interessados a se conectar à API.

A OpenAI não é a única empresa a lançar Cache de Prompt. Anthropic lançou o cache de prompts para Claude 3.5 Sonnet em agosto.



    4 × 3 =




    Bolt42