A Stability AI, conhecida por suas inovações em IA generativa, anunciou um novo modelo de geração de áudio: Stable Audio Open Small. O que diferencia essa ferramenta é sua capacidade de funcionar em smartphones sem acesso à internet, graças à otimização para processadores Arm.
Desenvolvido em parceria com o fabricante de chips Arm, o modelo é projetado para gerar clipes de som curtos — amostras, efeitos sonoros ou esboços instrumentais de até 11 segundos. De acordo com os desenvolvedores, produzir esse áudio leva menos de oito segundos, mesmo em dispositivos móveis. Esse desempenho é possível ao reduzir a rede neural para 341 milhões de parâmetros e adaptá-la para chips energeticamente eficientes.
Diferente de serviços baseados em nuvem como Suno ou Udio, o Stable Audio Open Small funciona totalmente localmente. Isso elimina a latência e a dependência da conectividade com a internet. O modelo foi treinado exclusivamente em conjuntos de dados de código aberto do Free Music Archive e Freesound, reduzindo os riscos de direitos autorais — um contraste notável com alguns concorrentes que dependem de materiais de treinamento mais questionáveis.
Ainda assim, a ferramenta tem suas limitações: ela suporta apenas comandos em inglês, não gera vocais ou composições complexas. Os termos de uso variam — é gratuito para startups e pesquisadores, mas empresas com mais de $1 milhão em receita anual precisam adquirir uma licença comercial. Embora não seja um substituto para estúdios profissionais, o Stable Audio Open Small oferece uma solução prática para criação rápida de áudio em movimento diretamente do seu telefone.