A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista.
O modelo, que possui 1 bilhão de parâmetros (sendo “parâmetros” os componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser utilizado comercialmente com poucas restrições. Chamado de CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com a descrição da Sesame na plataforma de desenvolvimento de IA Hugging Face.
RVQ refere-se a “quantização vetorial residual,” uma técnica para codificar áudio em tokens discretos chamados códigos. A RVQ é utilizada em várias tecnologias de áudio de IA recentes, incluindo o SoundStream do Google e o Encodec da Meta.
O CSM-1B utiliza um modelo da família Llama da Meta como sua espinha dorsal, junto com um componente “decodificador” de áudio. Uma variante ajustada do CSM alimenta Maya, conforme afirma a Sesame.
“O modelo aqui open-sourced é um modelo de geração base,” escreve a Sesame nos repositórios do CSM-1B no Hugging Face e GitHub. “É capaz de produzir uma variedade de vozes, mas não foi ajustado para nenhuma voz específica […] O modelo tem alguma capacidade para idiomas não ingleses devido à contaminação de dados nos dados de treinamento, mas provavelmente não fará bem.”
Não está claro quais dados a Sesame usou para treinar o CSM-1B. A empresa não informou.
Vale ressaltar que o modelo não tem verdadeiros mecanismos de proteção. A Sesame possui um sistema de honra e simplesmente exorta desenvolvedores e usuários a não usarem o modelo para imitar a voz de uma pessoa sem seu consentimento, criar conteúdos enganosos como notícias falsas ou envolver-se em atividades “prejudiciais” ou “maliciosas.”
Eu experimentei a demonstração no Hugging Face, e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar discurso à minha vontade, incluindo sobre tópicos controversos como as eleições e propaganda russa.
A Consumer Reports recentemente avisou que muitas ferramentas populares de clonagem de voz com IA disponíveis no mercado não possuem “proteções significativas” para prevenir fraudes ou abusos.
A Sesame, co-fundada pelo co-criador do Oculus Brendan Iribe, se tornou viral no final de fevereiro por sua tecnologia de assistente, que chega perto de ultrapassar o vale do uncanny. Maya e o outro assistente da Sesame, Miles, respiram e falam com disfluências, podendo ser interrompidos durante a fala, muito parecido com o Modo de Voz da OpenAI.
A Sesame levantou uma quantia não divulgada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de desenvolver tecnologia de assistente de voz, a empresa afirma que está prototipando óculos de IA “projetados para serem usados o dia todo” equipados com seus modelos personalizados.
Conteúdo relacionado
SoftBank compra fábrica antiga da Sharp por US$ 676 milhões para sua colaboração com a OpenAI no Japão
[the_ad id="145565"] A SoftBank avança em suas ambições de estabelecer uma operação significativa de IA em seu mercado natal, o Japão, tanto de forma independente quanto em…
A palestra principal da GTC da Nvidia enfatizará a IA em vez dos jogos.
[the_ad id="145565"] A Conferência de Tecnologia em GPU da Nvidia (GTC) acontece na próxima semana em San Jose, não muito longe de San Francisco, que está hospedando…
OpenAI pede ao governo dos EUA que codifique o ‘uso justo’ para treinamento de IA
[the_ad id="145565"] Em uma proposta para o “Plano de Ação de IA” do governo dos EUA, a iniciativa da administração Trump para reformular a política de IA americana, a OpenAI…