A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista.
O modelo, que possui 1 bilhão de parâmetros (sendo “parâmetros” os componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser utilizado comercialmente com poucas restrições. Chamado de CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com a descrição da Sesame na plataforma de desenvolvimento de IA Hugging Face.
RVQ refere-se a “quantização vetorial residual,” uma técnica para codificar áudio em tokens discretos chamados códigos. A RVQ é utilizada em várias tecnologias de áudio de IA recentes, incluindo o SoundStream do Google e o Encodec da Meta.
O CSM-1B utiliza um modelo da família Llama da Meta como sua espinha dorsal, junto com um componente “decodificador” de áudio. Uma variante ajustada do CSM alimenta Maya, conforme afirma a Sesame.
“O modelo aqui open-sourced é um modelo de geração base,” escreve a Sesame nos repositórios do CSM-1B no Hugging Face e GitHub. “É capaz de produzir uma variedade de vozes, mas não foi ajustado para nenhuma voz específica […] O modelo tem alguma capacidade para idiomas não ingleses devido à contaminação de dados nos dados de treinamento, mas provavelmente não fará bem.”
Não está claro quais dados a Sesame usou para treinar o CSM-1B. A empresa não informou.
Vale ressaltar que o modelo não tem verdadeiros mecanismos de proteção. A Sesame possui um sistema de honra e simplesmente exorta desenvolvedores e usuários a não usarem o modelo para imitar a voz de uma pessoa sem seu consentimento, criar conteúdos enganosos como notícias falsas ou envolver-se em atividades “prejudiciais” ou “maliciosas.”
Eu experimentei a demonstração no Hugging Face, e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar discurso à minha vontade, incluindo sobre tópicos controversos como as eleições e propaganda russa.
A Consumer Reports recentemente avisou que muitas ferramentas populares de clonagem de voz com IA disponíveis no mercado não possuem “proteções significativas” para prevenir fraudes ou abusos.
A Sesame, co-fundada pelo co-criador do Oculus Brendan Iribe, se tornou viral no final de fevereiro por sua tecnologia de assistente, que chega perto de ultrapassar o vale do uncanny. Maya e o outro assistente da Sesame, Miles, respiram e falam com disfluências, podendo ser interrompidos durante a fala, muito parecido com o Modo de Voz da OpenAI.
A Sesame levantou uma quantia não divulgada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de desenvolver tecnologia de assistente de voz, a empresa afirma que está prototipando óculos de IA “projetados para serem usados o dia todo” equipados com seus modelos personalizados.
Conteúdo relacionado
Corrigindo a Compreensão Limitada de Modelos de Difusão sobre Espelhos e Reflexos
[the_ad id="145565"] Desde que a IA generativa começou a atrair o interesse do público, a área de pesquisa em visão computacional aprofundou seu interesse no desenvolvimento de…
Lightrun capta US$ 70 milhões utilizando IA para depurar código em produção.
[the_ad id="145565"] A programação baseada em IA se popularizou rapidamente, prometendo tornar o trabalho dos desenvolvedores mais ágil e fácil. Contudo, isso também resultou…
A Liquid AI está revolucionando os LLMs para funcionar em dispositivos de borda, como smartphones, com o novo modelo ‘Hyena Edge’.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para obter as últimas atualizações e conteúdo exclusivo sobre inteligência artificial de ponta. Saiba……