A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista.
O modelo, que possui 1 bilhão de parâmetros (sendo “parâmetros” os componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser utilizado comercialmente com poucas restrições. Chamado de CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com a descrição da Sesame na plataforma de desenvolvimento de IA Hugging Face.
RVQ refere-se a “quantização vetorial residual,” uma técnica para codificar áudio em tokens discretos chamados códigos. A RVQ é utilizada em várias tecnologias de áudio de IA recentes, incluindo o SoundStream do Google e o Encodec da Meta.
O CSM-1B utiliza um modelo da família Llama da Meta como sua espinha dorsal, junto com um componente “decodificador” de áudio. Uma variante ajustada do CSM alimenta Maya, conforme afirma a Sesame.
“O modelo aqui open-sourced é um modelo de geração base,” escreve a Sesame nos repositórios do CSM-1B no Hugging Face e GitHub. “É capaz de produzir uma variedade de vozes, mas não foi ajustado para nenhuma voz específica […] O modelo tem alguma capacidade para idiomas não ingleses devido à contaminação de dados nos dados de treinamento, mas provavelmente não fará bem.”
Não está claro quais dados a Sesame usou para treinar o CSM-1B. A empresa não informou.
Vale ressaltar que o modelo não tem verdadeiros mecanismos de proteção. A Sesame possui um sistema de honra e simplesmente exorta desenvolvedores e usuários a não usarem o modelo para imitar a voz de uma pessoa sem seu consentimento, criar conteúdos enganosos como notícias falsas ou envolver-se em atividades “prejudiciais” ou “maliciosas.”
Eu experimentei a demonstração no Hugging Face, e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar discurso à minha vontade, incluindo sobre tópicos controversos como as eleições e propaganda russa.
A Consumer Reports recentemente avisou que muitas ferramentas populares de clonagem de voz com IA disponíveis no mercado não possuem “proteções significativas” para prevenir fraudes ou abusos.
A Sesame, co-fundada pelo co-criador do Oculus Brendan Iribe, se tornou viral no final de fevereiro por sua tecnologia de assistente, que chega perto de ultrapassar o vale do uncanny. Maya e o outro assistente da Sesame, Miles, respiram e falam com disfluências, podendo ser interrompidos durante a fala, muito parecido com o Modo de Voz da OpenAI.
A Sesame levantou uma quantia não divulgada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de desenvolver tecnologia de assistente de voz, a empresa afirma que está prototipando óculos de IA “projetados para serem usados o dia todo” equipados com seus modelos personalizados.
Conteúdo relacionado
O sucesso da DeepSeek demonstra por que a motivação é fundamental para a inovação em IA
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre reportagens de IA líderes da indústria. Saiba…
Economize R$ 210 + 50% de desconto no segundo ingresso para Sessions: AI até 4 de maio
[the_ad id="145565"] O centro da inovação em IA está aqui — não perca os últimos 7 dias de economia com os ingressos antecipados! A IA está remodelando o mundo e o TechCrunch…
O Google transfere notícias do Android para um evento virtual antes de sua conferência para desenvolvedores I/O
[the_ad id="145565"] As notícias sobre o Android estão sendo relegadas a um evento secundário na conferência anual de desenvolvedores do Google, Google I/O, no próximo mês. Na…