Bolt42

A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista.

O modelo, que possui 1 bilhão de parâmetros (sendo “parâmetros” os componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser utilizado comercialmente com poucas restrições. Chamado de CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com a descrição da Sesame na plataforma de desenvolvimento de IA Hugging Face.

RVQ refere-se a “quantização vetorial residual,” uma técnica para codificar áudio em tokens discretos chamados códigos. A RVQ é utilizada em várias tecnologias de áudio de IA recentes, incluindo o SoundStream do Google e o Encodec da Meta.

O CSM-1B utiliza um modelo da família Llama da Meta como sua espinha dorsal, junto com um componente “decodificador” de áudio. Uma variante ajustada do CSM alimenta Maya, conforme afirma a Sesame.

“O modelo aqui open-sourced é um modelo de geração base,” escreve a Sesame nos repositórios do CSM-1B no Hugging Face e GitHub. “É capaz de produzir uma variedade de vozes, mas não foi ajustado para nenhuma voz específica […] O modelo tem alguma capacidade para idiomas não ingleses devido à contaminação de dados nos dados de treinamento, mas provavelmente não fará bem.”

Não está claro quais dados a Sesame usou para treinar o CSM-1B. A empresa não informou.

Vale ressaltar que o modelo não tem verdadeiros mecanismos de proteção. A Sesame possui um sistema de honra e simplesmente exorta desenvolvedores e usuários a não usarem o modelo para imitar a voz de uma pessoa sem seu consentimento, criar conteúdos enganosos como notícias falsas ou envolver-se em atividades “prejudiciais” ou “maliciosas.”

Eu experimentei a demonstração no Hugging Face, e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar discurso à minha vontade, incluindo sobre tópicos controversos como as eleições e propaganda russa.

A Consumer Reports recentemente avisou que muitas ferramentas populares de clonagem de voz com IA disponíveis no mercado não possuem “proteções significativas” para prevenir fraudes ou abusos.

A Sesame, co-fundada pelo co-criador do Oculus Brendan Iribe, se tornou viral no final de fevereiro por sua tecnologia de assistente, que chega perto de ultrapassar o vale do uncanny. Maya e o outro assistente da Sesame, Miles, respiram e falam com disfluências, podendo ser interrompidos durante a fala, muito parecido com o Modo de Voz da OpenAI.

A Sesame levantou uma quantia não divulgada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de desenvolver tecnologia de assistente de voz, a empresa afirma que está prototipando óculos de IA “projetados para serem usados o dia todo” equipados com seus modelos personalizados.


    dezoito − nove =

    Bolt42