Dois graduandos criaram um modelo de IA de fala para rivalizar com o NotebookLM

Um par de estudantes de graduação, nenhum com vasta experiência em IA, afirma ter criado um modelo de IA disponível publicamente que pode gerar clipes de estilo podcast semelhantes ao NotebookLM do Google.

O mercado para ferramentas de fala sintética é vasto e crescente. A ElevenLabs é um dos maiores players, mas não faltam concorrentes (veja PlayAI, Sesame, e assim por diante). Investidores acreditam que essas ferramentas têm um potencial imenso. De acordo com a PitchBook, startups que desenvolvem tecnologia de voz IA levantaram mais de $398 milhões em financiamento de capital de risco no ano passado.

Toby Kim, um dos cofundadores da Nari Labs, grupo por trás do modelo recém-lançado, disse que ele e seu cofundador começaram a aprender sobre IA de fala há três meses. Inspirados pelo NotebookLM, eles queriam criar um modelo que oferecesse mais controle sobre as vozes geradas e “liberdade no roteiro”.

Kim afirmou que usaram o programa TPU Research Cloud do Google, que oferece acesso gratuito aos chips TPU da empresa para pesquisadores, para treinar o modelo Dia da Nari. Com 1,6 bilhão de parâmetros, Dia pode gerar diálogos a partir de um roteiro, permitindo que os usuários personalizem os tons dos falantes e insiram disfluências, tosses, risadas e outros sinais não verbais.

Parâmetros são as variáveis internas que os modelos usam para fazer previsões. Geralmente, modelos com mais parâmetros têm um desempenho melhor.

Disponível na plataforma de desenvolvimento de IA Hugging Face e no GitHub, Dia pode ser executado na maioria dos PCs modernos com pelo menos 10 GB de VRAM. Ele gera uma voz aleatória, a menos que solicitado com uma descrição de um estilo pretendido, mas também pode clonar a voz de uma pessoa.

Durante um breve teste do Dia pela demonstração web da Nari, o Dia funcionou muito bem, gerando chats de duas vias sobre qualquer assunto sem reclamações. A qualidade das vozes parece competitiva com outras ferramentas disponíveis, e a função de clonagem de voz está entre as mais fáceis que este repórter já tentou.

Aqui está um exemplo:

Como muitos geradores de voz, Dia oferece poucas salvaguardas, no entanto. Seria trivial criar desinformação ou uma gravação enganosa. Nas páginas do projeto do Dia, a Nari desencoraja o uso abusivo do modelo para imitar, enganar ou se envolver em campanhas ilícitas, mas o grupo afirma que “não é responsável” por qualquer uso inadequado.

A Nari também não divulgou quais dados foram utilizados para treinar o Dia. É possível que o Dia tenha sido desenvolvido usando conteúdo protegido por direitos autorais — um comentarista no Hacker News observa que uma amostra soa como os hosts do podcast “Planet Money” da NPR. Treinar modelos com conteúdo protegido por direitos autorais é uma prática generalizada, mas legalmente duvidosa. Algumas empresas de IA afirmam que o uso justo as protege de responsabilidades, enquanto os detentores de direitos sustentam que o uso justo não se aplica ao treinamento.

De qualquer forma, Kim afirma que o plano da Nari é criar uma plataforma de voz sintética com um “aspecto social” em cima do Dia e de modelos maiores no futuro. A Nari também pretende lançar um relatório técnico para o Dia e expandir o suporte do modelo para além do inglês.