One Year On: OpenAI Has Yet to Launch Its Voice Cloning Tool in Portuguese

No final de março do ano passado, a OpenAI anunciou um “preview em pequena escala” de um serviço de IA, o Voice Engine, que a empresa afirmava poder clonar a voz de uma pessoa com apenas 15 segundos de fala. Aproximadamente um ano depois, a ferramenta permanece em fase de teste, e a OpenAI não indicou quando pode ser lançada — ou se será lançada.

A relutância da empresa em divulgar o serviço amplamente pode indicar receios de abuso, mas também pode refletir um esforço para evitar o escrutínio regulatório. A OpenAI foi historicamente acusada de priorizar produtos “brilhantes” em detrimento da segurança e de apressar lançamentos para vencer concorrentes no mercado.

Em uma declaração, um porta-voz da OpenAI disse à TechCrunch que a empresa continua testando o Voice Engine com um conjunto limitado de “parceiros confiáveis”.

“[Estamos] aprendendo com a forma como [nossos parceiros estão] usando a tecnologia para que possamos melhorar a utilidade e a segurança do modelo”, disse o porta-voz. “Ficamos animados ao ver as diferentes maneiras como ele está sendo usado, desde terapia de fala, aprendizado de idiomas, suporte ao cliente, até personagens de videogame e avatares de IA.”

Postergado

O Voice Engine, que alimenta as vozes disponíveis na API de texto-para-fala da OpenAI, assim como o Modo de Voz do ChatGPT, gera fala natural que se assemelha bastante ao orador original. A ferramenta converte caracteres escritos em fala, limitada apenas por certas diretrizes de conteúdo. No entanto, a ferramenta sofreu atrasos e janelas de lançamentos alteradas desde o início.

Como a OpenAI explicou em uma postagem no blog de junho de 2024, o modelo do Voice Engine aprende a prever os sons mais prováveis que um orador fará para um determinado texto, considerando diferentes vozes, sotaques e estilos de fala. Após isso, o modelo pode gerar não apenas versões faladas do texto, mas também “pronunciamentos falados” que refletem como diferentes tipos de oradores leriam o texto em voz alta.

A OpenAI inicialmente pretendia lançar o Voice Engine, originalmente chamado de Custom Voices, em sua API em 7 de março de 2024, de acordo com um rascunho de postagem no blog visto pela TechCrunch. O plano era dar acesso a um grupo de até 100 “desenvolvedores confiáveis” antes de uma estreia mais ampla, com prioridade dada a devs que criassem aplicativos que proporcionassem um “benefício social” ou mostrassem usos “inovadores e responsáveis” da tecnologia. A OpenAI até havia registrado a marca e precificado: $15 por milhão de caracteres para vozes “padrão” e $30 por milhão de caracteres para vozes de “qualidade HD”.

Então, na última hora, a empresa adiou o anúncio. A OpenAI acabou revelando o Voice Engine algumas semanas depois, sem uma opção de inscrição. O acesso à ferramenta permaneceria limitado a um grupo de cerca de 10 desenvolvedores com quem a empresa começou a trabalhar no final de 2023, afirmou a OpenAI.

“Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades”, escreveu a OpenAI em sua postagem de anúncio do Voice Engine no final de março de 2024. “Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em grande escala.”

Longo em desenvolvimento

O Voice Engine está em desenvolvimento desde 2022, de acordo com a OpenAI. A empresa afirma que apresentou a ferramenta a “políticos globais em alto nível” no verão de 2023 para mostrar seu potencial — e os riscos.

Vários parceiros têm acesso ao Voice Engine hoje, incluindo a startup Livox, que está criando dispositivos que permitem que pessoas com deficiência se comuniquem de maneira mais natural. O CEO Carlos Pereira disse à TechCrunch que, embora a Livox não tenha conseguido integrar o Voice Engine a um produto devido à necessidade de conexão online da ferramenta (muitos clientes da Livox não têm internet), ele considerou a tecnologia “realmente impressionante.”

“A qualidade da voz e a possibilidade de ter as vozes falando em diferentes idiomas é única — especialmente para pessoas com deficiência, nossos clientes,” disse Pereira à TechCrunch por e-mail. “É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que já vi […] Esperamos que a OpenAI desenvolva uma versão offline em breve.”

Pereira afirma que não recebeu orientações da OpenAI sobre um possível lançamento do Voice Engine, nem viu sinais de que a empresa planeja começar a cobrar pelo serviço. Até agora, a Livox não teve que pagar pelo uso.

Naquela postagem de junho de 2024, a OpenAI insinuou que uma das considerações para adiar o Voice Engine foi o potencial de abuso durante o ciclo eleitoral dos EUA no ano passado. Informado por discussões com partes interessadas, o Voice Engine possui várias medidas de segurança mitigatórias, incluindo marcação d’água para rastrear a proveniência do áudio gerado.

Os desenvolvedores devem obter “consentimento explícito” do orador original antes de usar o Voice Engine, de acordo com a OpenAI, e devem fazer “divulgações claras” ao seu público de que as vozes são geradas por IA. No entanto, a empresa não informou como está aplicando essas políticas. Fazer isso em grande escala pode se mostrar imensamente desafiador, mesmo para uma empresa com os recursos da OpenAI.

Em suas postagens no blog, a OpenAI também insinuou que espera construir uma “experiência de autenticação de voz” para verificar oradores e uma lista de “proibição” que impeça a criação de vozes que soem muito semelhantes a figuras proeminentes. Ambos são projetos tecnologicamente ambiciosos, e errar nisso refletiria negativamente sobre uma empresa que frequentemente foi acusada de negligenciar iniciativas de segurança.

Filtragem eficiente e verificação de identificação estão se tornando requisitos básicos para lançamentos responsáveis de tecnologia de clonagem de voz. A clonagem de voz com IA foi o terceiro golpe de golpe que mais cresceu em 2024, segundo uma fonte. Isso levou a fraudes e checagens de segurança bancária sendo contornadas, enquanto as leis de privacidade e direitos autorais lutam para acompanhar. Atores maliciosos usaram a clonagem de voz para criar deepfakes incendiários de celebridades e políticos, e esses deepfakes têm se espalhado como um incêndio florestal nas redes sociais.

A OpenAI pode lançar o Voice Engine na próxima semana — ou nunca. A empresa afirmou repetidamente que está considerando manter o serviço pequeno em escopo. Mas uma coisa é clara: Por razões de ótica, segurança, ou ambas, o preview limitado do Voice Engine se tornou um dos mais longos da história da OpenAI.