Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型,专为移动设备优化,能够在本地快速生成高质量音频。
一、主要功能
-
文本到音频生成:用户输入英文文本提示,如“128BPM电子鼓循环”或“海浪拍岸的声音”,模型即可生成相应的音效、乐器片段或环境音。
-
快速音频生成:在智能手机上,能在不到8秒的时间内生成最长11秒的44.1kHz立体声音频。
-
轻量化设计:参数量从11亿减少到3.41亿,适合在资源受限的移动设备上运行。
-
多样化音频生成:支持生成短音频样本、音效、乐器片段和环境纹理等,满足多种创意音频制作需求。
二、技术原理
-
基于深度学习的生成模型:采用潜在扩散模型(Latent Diffusion Model),结合T5文本嵌入和基于变压器的扩散架构(DiT),通过大量音频数据训练,能够根据文本描述生成相应音频。
-
参数优化:通过量化和剪枝等模型压缩技术,将参数量从11亿减少到3.41亿,降低计算需求。
-
边缘计算优化:基于 Arm 的 KleidiAI 库,针对 Arm CPU 进行优化,使模型能够在移动设备和边缘设备上高效运行。
-
高效的推理引擎:优化推理过程,提高模型在移动设备上的响应速度和用户体验。
三、应用场景
-
移动音乐创作:用户可在手机上快速生成音乐片段和音效,随时随地进行创作。
-
游戏音效生成:为游戏实时生成背景音乐和音效,增强沉浸感。
-
视频配乐:帮助视频创作者快速生成背景音乐和音效,提高创作效率。
-
智能设备音频:在智能音箱等设备上生成自定义音效,提升智能化体验。
-
教育辅助:生成教学音效和背景音乐,增强教育内容的趣味性。
四、使用方法
-
获取模型:模型权重和代码已在 Hugging Face 和 GitHub 上发布。
-
输入文本提示:用户输入简单的英文文本描述,如“鼓点循环”或“自然环境音”。
-
生成音频:模型根据文本提示快速生成音频,用户可在移动设备上直接使用。
五、适用人群
-
音乐创作者:能够快速生成音乐片段和音效,辅助创作。
-
游戏开发者:为游戏生成实时音效,提升游戏体验。
-
视频创作者:快速生成背景音乐和音效,提高视频制作效率。
-
教育工作者:生成教学音效,丰富教学内容。
-
个人用户:随时随地创作个性化音频。
六、优缺点介绍
优点
-
高效快速:在移动设备上生成音频的速度极快,适合实时应用。
-
轻量化设计:参数量大幅减少,适合在资源受限的设备上运行。
-
离线运行:无需依赖云端处理,可在离线场景下使用。
-
版权合规:训练数据来自免版税音频库,避免了版权风险。
缺点
-
仅支持英文提示:目前仅支持英文输入,限制了部分用户的使用。
-
音乐风格局限:对非西方音乐风格的表现较弱。
-
无法生成人声或完整歌曲:目前无法生成逼真的人声或高质量的完整歌曲。
-
使用条款限制:年收入超过100万美元的企业需购买企业许可。
分类标签
音频生成、移动设备、AI工具、音乐创作、音效设计

ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。