A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista.
O modelo, que possui 1 bilhão de parâmetros (sendo “parâmetros” os componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser utilizado comercialmente com poucas restrições. Chamado de CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com a descrição da Sesame na plataforma de desenvolvimento de IA Hugging Face.
RVQ refere-se a “quantização vetorial residual,” uma técnica para codificar áudio em tokens discretos chamados códigos. A RVQ é utilizada em várias tecnologias de áudio de IA recentes, incluindo o SoundStream do Google e o Encodec da Meta.
O CSM-1B utiliza um modelo da família Llama da Meta como sua espinha dorsal, junto com um componente “decodificador” de áudio. Uma variante ajustada do CSM alimenta Maya, conforme afirma a Sesame.
“O modelo aqui open-sourced é um modelo de geração base,” escreve a Sesame nos repositórios do CSM-1B no Hugging Face e GitHub. “É capaz de produzir uma variedade de vozes, mas não foi ajustado para nenhuma voz específica […] O modelo tem alguma capacidade para idiomas não ingleses devido à contaminação de dados nos dados de treinamento, mas provavelmente não fará bem.”
Não está claro quais dados a Sesame usou para treinar o CSM-1B. A empresa não informou.
Vale ressaltar que o modelo não tem verdadeiros mecanismos de proteção. A Sesame possui um sistema de honra e simplesmente exorta desenvolvedores e usuários a não usarem o modelo para imitar a voz de uma pessoa sem seu consentimento, criar conteúdos enganosos como notícias falsas ou envolver-se em atividades “prejudiciais” ou “maliciosas.”
Eu experimentei a demonstração no Hugging Face, e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar discurso à minha vontade, incluindo sobre tópicos controversos como as eleições e propaganda russa.
A Consumer Reports recentemente avisou que muitas ferramentas populares de clonagem de voz com IA disponíveis no mercado não possuem “proteções significativas” para prevenir fraudes ou abusos.
A Sesame, co-fundada pelo co-criador do Oculus Brendan Iribe, se tornou viral no final de fevereiro por sua tecnologia de assistente, que chega perto de ultrapassar o vale do uncanny. Maya e o outro assistente da Sesame, Miles, respiram e falam com disfluências, podendo ser interrompidos durante a fala, muito parecido com o Modo de Voz da OpenAI.
A Sesame levantou uma quantia não divulgada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de desenvolver tecnologia de assistente de voz, a empresa afirma que está prototipando óculos de IA “projetados para serem usados o dia todo” equipados com seus modelos personalizados.
Conteúdo relacionado
Os riscos do código gerado por IA são reais — veja como as empresas podem gerenciá-los.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para obter as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais…
SoftBank compra fábrica antiga da Sharp por US$ 676 milhões para sua colaboração com a OpenAI no Japão
[the_ad id="145565"] A SoftBank avança em suas ambições de estabelecer uma operação significativa de IA em seu mercado natal, o Japão, tanto de forma independente quanto em…
A palestra principal da GTC da Nvidia enfatizará a IA em vez dos jogos.
[the_ad id="145565"] A Conferência de Tecnologia em GPU da Nvidia (GTC) acontece na próxima semana em San Jose, não muito longe de San Francisco, que está hospedando…