Bolt42

Em 2016, Hammad Syed e Mahmoud Felfel, um ex-engenheiro do WhatsApp, acharam interessante criar uma extensão do Chrome para conversão de texto em fala para artigos do Medium. A extensão, capaz de ler em voz alta qualquer história do Medium, foi destaque no Product Hunt. Um ano depois, ela originou um negócio completo.

“Vimos uma oportunidade maior em ajudar indivíduos e organizações a criar conteúdo de áudio realista para suas aplicações”, disse Syed ao TechCrunch. “Sem a necessidade de construir seu próprio modelo, eles poderiam implementar experiências de fala de qualidade humana mais rapidamente do que nunca.”

A empresa de Syed e Felfel, PlayAI (anteriormente PlayHT), se apresenta como a “interface de voz da IA.” Os clientes podem escolher entre diversas vozes pré-definidas ou clonar uma voz e usar a API da PlayAI para integrar a conversão de texto em fala em seus aplicativos.

Alternativas permitem que os usuários ajustem a entonação, o ritmo e o tom das vozes.

A PlayAI também oferece um “parque de diversões” onde os usuários podem enviar um arquivo para gerar uma versão lida em voz alta e um painel para criar narrações de áudio mais polidas e locuções. Recentemente, a empresa entrou no jogo dos “agentes de IA” com ferramentas que podem ser usadas para automatizar tarefas, como atender chamadas de clientes em um negócio.

PlayAI
Recurso de agente da PlayAI, que constrói ferramentas de automação em torno do motor de conversão de texto em fala da empresa.Créditos da Imagem:PlayAI

Um dos experimentos mais interessantes da PlayAI é o PlayNote, que transforma PDFs, vídeos, fotos, músicas e outros arquivos em programas em estilo de podcast, resumos lidos em voz alta, debates um a um e até histórias para crianças. Assim como o NotebookLM do Google, o PlayNote gera um roteiro a partir de um arquivo ou URL enviado e o alimenta a uma coleção de modelos de IA, que juntos criam o produto final.

Eu testei e os resultados não foram nada ruins. O modo “podcast” do PlayNote produz clipes mais ou menos no mesmo nível de qualidade que o NotebookLM, e a capacidade da ferramenta de processar fotos e vídeos resulta em criações fascinantes. Dada uma foto de um prato de mole de frango que eu tinha recentemente, o PlayNote escreveu um roteiro de podcast de cinco minutos sobre isso. Verdadeiramente, estamos vivendo no futuro.

Claro, a ferramenta, como todas as ferramentas de IA, gera artefatos estranhos e alucinações de tempos em tempos. E embora o PlayNote faça o seu melhor para adaptar um arquivo ao formato escolhido, não espere, por exemplo, que um documento legal seco sirva como o melhor material-fonte. Veja: o processo Musk x OpenAI apresentado como uma história para dormir:

O formato de podcast do PlayNote é possibilitado pelo modelo mais recente da PlayAI, o PlayDialog, que Syed afirma poder usar o “contexto e a história” de uma conversa para gerar fala que reflita o fluxo da conversa. “Usando o contexto histórico de uma conversa para controlar a prosódia, emoção e ritmo, o PlayDialog oferece uma conversa com entrega natural e tom apropriado”, continuou.

A PlayAI, que é uma concorrente próxima da ElevenLabs, já foi criticada no passado por sua abordagem permissiva em relação à segurança. A ferramenta de clonagem de voz da empresa requer que os usuários marquem uma caixa indicando que têm “todos os direitos ou consentimentos necessários” para clonar uma voz — mas não há nenhum mecanismo de fiscalização. Não tive dificuldade em criar um clone da voz de Kamala Harris a partir de uma gravação.

Isso é preocupante, considerando o potencial para fraudes e deepfakes.

PlayDialog
O modelo PlayDialog da PlayAI pode gerar conversas “duplex” de dois dias que soam relativamente naturais.Créditos da Imagem:PlayAI

A PlayAI também afirma que detecta e bloqueia automaticamente conteúdo “sexual, ofensivo, racista ou ameaçador.” Mas essa não foi a minha experiência nos testes. Usei o clone da Harris para gerar um discurso que eu não consigo incorporar aqui e nunca vi uma mensagem de aviso.

Enquanto isso, o portal comunitário do PlayNote, que está cheio de conteúdo gerado publicamente, tem arquivos com títulos explícitos como “Mulher Realizando Sexo Oral.”

Syed me disse que a PlayAI responde a denúncias de vozes clonadas sem consentimento, como esta, bloqueando o usuário responsável e removendo a voz clonada imediatamente. Ele também argumenta que os clones de voz de maior fidelidade da PlayAI, que requerem 20 minutos de amostras de voz, têm preços mais altos (US$ 49 por mês com faturamento anual ou US$ 99 por mês) do que a maioria dos golpistas estaria disposta a pagar.

“A PlayAI tem várias salvaguardas éticas em vigor,” disse Syed. “Implementamos mecanismos robustos para identificar se uma voz foi sintetizada usando nossa tecnologia, por exemplo. Se qualquer uso indevido for relatado, verificamos rapidamente a origem do conteúdo e tomamos medidas decisivas para retificar a situação e prevenir novas violações éticas.”

Eu certamente espero que isso seja verdade — e que a PlayAI se afaste de campanhas de marketing apresentando celebridades da tecnologia falecidas. Se a moderação da PlayAI não for robusta, ela pode enfrentar desafios legais em Tennessee, onde existe uma lei que impede plataformas de hospedar IA para fazer gravações não autorizadas da voz de uma pessoa.

A abordagem da PlayAI para treinar sua IA de clonagem de voz também é um pouco confusa. A empresa não revela onde obteve os dados para seus modelos, ostensivamente por razões de concorrência.

“A PlayAI usa principalmente conjuntos de dados abertos, [bem como dados licenciados] e conjuntos de dados proprietários que são construídos internamente,” disse Syed. “Não usamos dados de usuários dos produtos para treinar, nem criadores para treinar modelos. Nossos modelos são treinados em milhões de horas de fala humana real, oferecendo vozes em gêneros masculinos e femininos em várias línguas e sotaques.”

A maioria dos modelos de IA é treinada em dados da web públicos — alguns dos quais podem ser protegidos por direitos autorais ou sob licença restritiva. Muitos fornecedores de IA argumentam que a doutrina de uso justo os protege de reivindicações de direitos autorais. Mas isso não impediu os proprietários de dados de entrarem com ações coletivas alegando que os fornecedores usaram seus dados sem permissão.

A PlayAI não foi processada. No entanto, seus termos de serviço sugerem que não a ajudará se os usuários encontrarem ameaças legais.

Plataformas de clonagem de voz como a PlayAI enfrentam críticas de atores que temem que o trabalho de voz seja eventualmente substituído por vocais gerados por IA, e que os atores tenham pouco controle sobre como seus sósias digitais serão usados.

O sindicato de atores de Hollywood, SAG-AFTRA, fez acordos com algumas startups, incluindo o mercado de talentos online Narrativ e o Replica Studios, para o que descreve como arranjos de clonagem de voz “justos” e “éticos.” Mas mesmo esses acordos foram submetidos a intensa escrutínio, incluindo dos próprios membros da SAG-AFTRA.

Na Califórnia, as leis exigem que as empresas que dependem de um replicante digital de um artista (por exemplo, voz clonada) forneçam uma descrição do uso pretendido do replica e negociem com o aconselhamento jurídico do artista. Elas também exigem que empregadores de entretenimento obtenham o consentimento do espólio de um artista falecido antes de usar um clone digital daquela pessoa.

Syed afirma que a PlayAI “garante” que cada clone de voz gerado através de sua plataforma é exclusivo para o criador. “Essa exclusividade é vital para proteger os direitos criativos dos usuários”, acrescentou.

A crescente carga legal é um empecilho para a PlayAI. Outro é a concorrência. Papercup, Deepdub, Acapela, Respeecher e Voice.ai, além de grandes empresas de tecnologia como Amazon, Microsoft e Google, oferecem ferramentas de dublagem e clonagem de voz com IA. A mencionada ElevenLabs, um dos fornecedores de clonagem de voz mais conhecidos, está levantando novos fundos com uma avaliação acima de US$ 3 bilhões.

A PlayAI não está lutando para encontrar investidores, no entanto. Este mês, a empresa respaldada pelo Y Combinator fechou uma rodada de seed de US$ 20 milhões co-liderada pela 500 Startups e Kindred Ventures, elevando seu capital total arrecadado para US$ 21 milhões. Race Capital e 500 Global também participaram.

“O novo capital será usado para investir em nossos modelos de voz gerados por IA e na plataforma de agentes de voz, e para encurtar o tempo que as empresas levam para construir experiências de fala de qualidade humana”, disse Syed, acrescentando que a PlayAI planeja expandir sua força de trabalho de 40 pessoas.


    2 + dezoito =

    Bolt42