Inscreva-se em nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba Mais
OpenAI atualizou sua API Realtime hoje, que atualmente está em fase beta. Esta atualização adiciona novas vozes para aplicações de fala-para-fala em sua plataforma e reduz os custos associados ao cache de prompts.
Usuários beta da API Realtime agora terão cinco novas vozes que podem usar para construir suas aplicações. A OpenAI apresentou três das novas vozes, Ash, Verse e a voz britânica Ballad, em uma postagem no X.
Duas atualizações da API Realtime:
– Agora você pode criar experiências de fala-para-fala com cinco novas vozes – que são muito mais expressivas e dirigíveis. ???
– Estamos reduzindo o preço usando o cache de prompts. Entradas de texto em cache têm 50% de desconto e entradas de áudio em cache têm… pic.twitter.com/jLzZDBrR7l
— OpenAI Developers (@OpenAIDevs) 30 de outubro de 2024
A empresa afirmou em sua documentação da API que o recurso nativo de fala-para-fala “pule [um] formato de texto intermediário significa baixa latência e saída nuançada”, enquanto as vozes são mais fáceis de guiar e mais expressivas do que as vozes anteriores.
No entanto, a OpenAI alerta que não pode oferecer autenticação do lado do cliente para a API agora, uma vez que ainda está em beta. Também afirmou que pode haver problemas com o processamento de áudio em tempo real.
“As condições de rede afetam fortemente o áudio em tempo real, e entregar áudio de forma confiável de um cliente para um servidor em grande escala é desafiador quando as condições da rede são imprevisíveis,” compartilhou a empresa.
A história da OpenAI com voz e fala alimentadas por IA tem sido polêmica. Em março, lançou o Voice Engine, uma plataforma de clonagem de voz para rivalizar com ElevenLabs, mas limitou o acesso a apenas alguns pesquisadores. Em maio, após a empresa demonstrar seu GPT-4o e o Modo de Voz, pausou o uso de uma das vozes, Sky, após a atriz Scarlett Johansson se manifestar sobre sua semelhança com sua voz.
A empresa lançou o Modo de Voz Avançado do ChatGPT para assinantes pagantes (aqueles usando ChatGPT Plus, Enterprise, Teams e Edu) nos EUA em setembro.
A fala-para-fala em IA idealmente permitiria que as empresas construíssem respostas mais em tempo real usando uma voz. Suponha que um cliente ligue para a plataforma de atendimento ao cliente de uma empresa. Nesse caso, a capacidade de fala-para-fala pode captar a voz da pessoa, entender o que estão perguntando e responder usando uma voz gerada por IA com menor latência. A fala-para-fala também permite que os usuários gerem narrações, onde um usuário fala suas linhas, mas a saída de voz não é a deles. Uma plataforma que oferece isso é Replica e, claro, ElevenLabs.
A OpenAI lançou a API Realtime neste mês durante seu Dev Day. A API visa acelerar a construção de assistentes de voz.
Redução de custos
Usar recursos de fala-para-fala, no entanto, pode se tornar caro.
Quando a API Realtime foi lançada, a estrutura de preços estava em $0,06 por minuto de entrada de áudio e $0,24 por saída de áudio, o que não é barato. No entanto, a empresa planeja reduzir os preços da API em tempo real com o cache de prompts.
Entradas de texto em cache terão um desconto de 50%, e entradas de áudio em cache terão um desconto de 80%.
A OpenAI também anunciou o Cache de Prompt durante o Dev Day e manterá contextos e prompts frequentemente solicitados na memória do modelo. Isso reduzirá o número de tokens que precisa criar para gerar respostas. A redução nos preços de entrada pode incentivar mais desenvolvedores interessados a se conectar à API.
A OpenAI não é a única empresa a lançar Cache de Prompt. Anthropic lançou o cache de prompts para Claude 3.5 Sonnet em agosto.
VB Daily
Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente
Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Um laboratório chinês lançou um modelo de IA de ‘raciocínio’ para rivalizar com o o1 da OpenAI.
[the_ad id="145565"] Um laboratório chinês revelou o que parece ser um dos primeiros modelos de IA de "raciocínio" a rivalizar com o o1 da OpenAI. Na quarta-feira, DeepSeek,…
H, a startup de IA que arrecadou R$ 220 milhões, lança seu primeiro produto: Runner H para aplicações ‘agenitcas’
[the_ad id="145565"] H, a startup parisiense fundada por ex-alunos do Google, causou um grande alvoroço no verão passado quando, de forma inesperada, anunciou uma rodada de…
Esta Semana em IA: Comissão do Congresso alerta sobre AGI da China
[the_ad id="145565"] Oi, pessoal, bem-vindos ao boletim informativo regular de IA da TechCrunch. Se você deseja recebê-lo em sua caixa de entrada todas as quartas-feiras,…