A startup de IA Stability AI lançou o Stable Audio Open Small, um modelo de IA gerador de áudio “estéreo” que a empresa afirma ser o mais rápido do mercado — e eficiente o suficiente para rodar em smartphones.
O Stable Audio Open Small é o resultado de uma colaboração entre a Stability AI e a Arm, fabricante de chips que produz muitos dos processadores dentro de tablets, celulares e outros dispositivos móveis. Embora diversos aplicativos com tecnologia de IA possam gerar áudio, como Suno e Udio, a maioria depende do processamento em nuvem, o que significa que não podem ser usados offline.
A Stability também afirma que o conjunto de treinamento do Stable Audio Open Small é composto inteiramente por músicas das bibliotecas de áudio isentas de royalties Free Music Archive e Freesound. Isso contrasta com os conjuntos de treinamento dos mencionados Suno e Udio, que supostamente contêm conteúdo protegido por direitos autorais, representando um risco de propriedade intelectual.
O Stable Audio Open Small possui 341 milhões de parâmetros e é otimizado para rodar em CPUs da Arm. (Os parâmetros, às vezes referidos como “pesos”, são os componentes internos de um modelo que guiam seu comportamento.) Projetado para gerar rapidamente amostras curtas de áudio e efeitos sonoros (por exemplo, batidas e riffs de instrumento), o Stable Audio Open Small pode produzir até 11 segundos de áudio em um smartphone em menos de 8 segundos, segundo a Stability AI.
Aqui está uma amostra gerada pelo Stable Audio Open Small:
E aqui está outra:
O modelo não está isento de limitações. O Stable Audio Open Small suporta apenas prompts escritos em inglês, e a Stability observa em sua documentação que o modelo não pode gerar vocais realistas ou músicas de alta qualidade. A empresa também alerta que o modelo não se comporta igualmente bem em todos os estilos musicais — uma consequência de seu conjunto de dados de treinamento tendencioso para o Ocidente.
Em outro ponto que pode ser um obstáculo para desenvolvedores, o Stable Audio Open Small apresenta termos de uso um tanto restritivos. É gratuito para pesquisadores, hobbyistas e empresas com receita anual inferior a $1 milhão, mas desenvolvedores e organizações com receitas superiores a $1 milhão precisam pagar pela licença empresarial da Stability.
A Stability, a empresa que enfrenta dificuldades e é conhecida pelo popular modelo de geração de imagens Stable Diffusion, levantou novos fundos no ano passado à medida que investidores, incluindo Eric Schmidt e o fundador do Napster, Sean Parker, tentavam recuperar a situação da empresa. Emad Mostaque, cofundador e ex-CEO da Stability, supostamente gerenciou a empresa para a ruína financeira, levando colaboradores a se demitirem, uma parceria com a Canva a fracassar e investidores a se preocuparem com as perspectivas da empresa.
Nos últimos meses, a Stability contratou um novo CEO, nomeou o cineasta James Cameron para seu conselho de diretores e lançou vários novos modelos de geração de imagens.
Conteúdo relacionado
Além da bajulação: DarkBench revela seis ‘padrões obscuros’ ocultos nos principais LLMs de hoje
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba…
Hedra, o aplicativo utilizado para criar podcasts infantis, levanta R$ 32 milhões da a16z
[the_ad id="145565"] As pessoas estão utilizando ferramentas de geração de vídeo por IA para contribuir com uma nova tendência viral inesperada: podcasts com personagens…
Harvey em discussões para levantar US$ 250 milhões com valorização de US$ 5 bilhões
[the_ad id="145565"] A startup de tecnologia jurídica Harvey está em negociações para arrecadar mais de $250 milhões em uma rodada de financiamento liderada pela Kleiner…