OpenAI expande a API em tempo real com novas vozes e reduz preços para desenvolvedores

Inscreva-se em nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba Mais

OpenAI atualizou sua API Realtime hoje, que atualmente está em fase beta. Esta atualização adiciona novas vozes para aplicações de fala-para-fala em sua plataforma e reduz os custos associados ao cache de prompts.

Usuários beta da API Realtime agora terão cinco novas vozes que podem usar para construir suas aplicações. A OpenAI apresentou três das novas vozes, Ash, Verse e a voz britânica Ballad, em uma postagem no X.

Duas atualizações da API Realtime:
– Agora você pode criar experiências de fala-para-fala com cinco novas vozes – que são muito mais expressivas e dirigíveis. ???
– Estamos reduzindo o preço usando o cache de prompts. Entradas de texto em cache têm 50% de desconto e entradas de áudio em cache têm… pic.twitter.com/jLzZDBrR7l
— OpenAI Developers (@OpenAIDevs) 30 de outubro de 2024

A empresa afirmou em sua documentação da API que o recurso nativo de fala-para-fala “pule [um] formato de texto intermediário significa baixa latência e saída nuançada”, enquanto as vozes são mais fáceis de guiar e mais expressivas do que as vozes anteriores.

No entanto, a OpenAI alerta que não pode oferecer autenticação do lado do cliente para a API agora, uma vez que ainda está em beta. Também afirmou que pode haver problemas com o processamento de áudio em tempo real.

“As condições de rede afetam fortemente o áudio em tempo real, e entregar áudio de forma confiável de um cliente para um servidor em grande escala é desafiador quando as condições da rede são imprevisíveis,” compartilhou a empresa.

A história da OpenAI com voz e fala alimentadas por IA tem sido polêmica. Em março, lançou o Voice Engine, uma plataforma de clonagem de voz para rivalizar com ElevenLabs, mas limitou o acesso a apenas alguns pesquisadores. Em maio, após a empresa demonstrar seu GPT-4o e o Modo de Voz, pausou o uso de uma das vozes, Sky, após a atriz Scarlett Johansson se manifestar sobre sua semelhança com sua voz.

A empresa lançou o Modo de Voz Avançado do ChatGPT para assinantes pagantes (aqueles usando ChatGPT Plus, Enterprise, Teams e Edu) nos EUA em setembro.

A fala-para-fala em IA idealmente permitiria que as empresas construíssem respostas mais em tempo real usando uma voz. Suponha que um cliente ligue para a plataforma de atendimento ao cliente de uma empresa. Nesse caso, a capacidade de fala-para-fala pode captar a voz da pessoa, entender o que estão perguntando e responder usando uma voz gerada por IA com menor latência. A fala-para-fala também permite que os usuários gerem narrações, onde um usuário fala suas linhas, mas a saída de voz não é a deles. Uma plataforma que oferece isso é Replica e, claro, ElevenLabs.

A OpenAI lançou a API Realtime neste mês durante seu Dev Day. A API visa acelerar a construção de assistentes de voz.

Redução de custos

Usar recursos de fala-para-fala, no entanto, pode se tornar caro.

Quando a API Realtime foi lançada, a estrutura de preços estava em $0,06 por minuto de entrada de áudio e $0,24 por saída de áudio, o que não é barato. No entanto, a empresa planeja reduzir os preços da API em tempo real com o cache de prompts.

Entradas de texto em cache terão um desconto de 50%, e entradas de áudio em cache terão um desconto de 80%.

A OpenAI também anunciou o Cache de Prompt durante o Dev Day e manterá contextos e prompts frequentemente solicitados na memória do modelo. Isso reduzirá o número de tokens que precisa criar para gerar respostas. A redução nos preços de entrada pode incentivar mais desenvolvedores interessados a se conectar à API.

A OpenAI não é a única empresa a lançar Cache de Prompt. Anthropic lançou o cache de prompts para Claude 3.5 Sonnet em agosto.

VB Daily

Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

MIT dissocia-se de artigo de estudante de doutorado sobre os benefícios da IA na produtividade.

[the_ad id="145565"] O MIT afirma que, devido a preocupações sobre a “integridade” de um artigo de alto perfil sobre os efeitos da inteligência artificial na pesquisa e…

BusinessInteligência artificial

Satya Nadella da Microsoft está escolhendo chatbots em vez de podcasts.

[the_ad id="145565"] Embora o CEO da Microsoft, Satya Nadella, diga que gosta de podcasts, ele pode não estar realmente ouvindo-os mais. Essa informação aparece próximo ao final…

BusinessInteligência artificial

Reduza o MTTP, bloqueie explorações: A implantação de anéis agora é essencial

" data-no-bp="" data-bp="720" data-uniqueid="155289-187301" data-guid="https://11o.info/wp-content/uploads/2025/05/1747510725.png" data-path="2025/05/1747510725.png" data-width="1024" data-height="1024" data-singlew="4" data-singleh="2.6666666666667" data-crop="1" loading="lazy" data-srcset="https://11o.info/wp-content/uploads/2025/05/1747510725-uai-1024x682.png 1024w, https://11o.info/wp-content/uploads/2025/05/1747510725-uai-720x480.png 720w" srcset="data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMTAyNCIgaGVpZ2h0PSI2ODIiIHhtbG5zPSJodHRwOi8vd3d3LnczLm9yZy8yMDAwL3N2ZyI+PHBhdGggZD0iTTAgMGgxdjFIMHoiIGZpbGw9Im5vbmUiIGZpbGwtcnVsZT0iZXZlbm9kZCIvPjwvc3ZnPg==" />

Reduza o MTTP, bloqueie explorações: A implantação de anéis agora é essencial

[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre IA de ponta. Saiba mais Sistemas não…