Meta SAM Audio：全球首个多模态音频分离模型

人声分离语音大模型

SAM Audio 是 Meta 发布的全球首个支持 “点击分离声音” 的多模态音频基础模型，能够通过文本、视觉或时间片段提示，从复杂音频混合物中一键提取目标声音。

链接直达手机查看

一、主要功能

文本提示提取：通过自然语言语义描述（如 “吉他声”“狗叫”“男性说话声”），精准分离对应声源，无需复杂参数设置。
视觉提示分离：支持点击视频中的发声物体，模型会自动关联该物体对应的音频并分离，实现音视频的精准联动。
时间片段提示处理：标记音频中目标声音出现的时间区间，模型可自动识别并提取该时间区间及同类特征的声音，高效处理重复或连续出现的声源。
多候选重排优化：可生成多个音频分离候选结果，通过内置评估模型筛选出精度、召回率和忠实度最优的输出，提升分离质量。
残留音频保留：分离目标声音的同时，自动保存剩余的残留音频，满足用户对完整音频拆分后的双重使用需求。

二、技术原理

核心依赖：基于 Perception-Encoder Audio-Visual（PE-AV）感知编码器构建，复刻人类自然感知声音的方式，实现多模态信息的深度融合。
模型架构：整合 SAM 2 编码器、跨注意力机制、自 Transformer、扩散模型（Diffusion）及 DACVAE 解码器等模块，通过视觉目标音频提取时间对齐特征、文本描述生成文本特征、时间片段提示构建跨度特征，再经 concat 注意力机制融合，最终输出分离后的目标音频与残留音频。
优化机制：支持自动跨度预测（针对非环境类声音事件）和候选重排功能，借助 CLAP（文本 - 音频相似度评估）、Judge（分离质量三维评估）、ImageBind（视觉 - 音频嵌入相似度评估）等模型，对分离结果进行量化筛选。
多模型变体：提供 small、base、large 三种基础尺寸模型，以及针对目标声音正确性和视觉提示优化的 “-tv” 变体，适配不同场景的性能与效率需求。

三、应用场景

媒体内容创作：视频剪辑中分离人声与背景音乐、提取乐器独奏片段用于二次创作、去除音频中的杂音（如环境噪音、无关人声）。
音频编辑处理：音乐制作中拆分多轨音频（如分离吉他、鼓、人声）、播客 / 有声书后期处理（提取主讲人声，去除干扰音）。
影视后期制作：电影、电视剧中分离特定角色对话或音效（如汽车鸣笛、爆炸声），便于配音替换或音效强化。
智能音频分析：音频监控中提取特定声音（如警报声、呼救声）、语音识别预处理（分离目标说话人声音，提升识别准确率）。
教育与科研：语言学习中提取听力材料的目标语音、声学研究中分离特定声源进行特征分析。

四、使用方法

环境准备：需满足 Python ≥ 3.10 版本，建议配备 CUDA 兼容的 GPU 以保障运行效率；通过 “pip install .” 命令安装依赖包。
权限获取：先在 SAM Audio 的 Hugging Face 仓库申请模型检查点访问权限，获取访问令牌后通过 “hf auth login” 命令完成身份验证，即可下载模型。
基础调用（文本提示示例）：导入 SAMAudio 及 SAMAudioProcessor 模块，加载预训练模型（如 “facebook/sam-audio-large”），传入音频文件路径与文本描述，调用 separate 方法即可生成分离结果，最后通过 torchaudio 保存目标音频与残留音频。
进阶设置：开启 “predict_spans=True” 可自动预测目标声音的时间跨度，提升非环境类声音的分离效果；设置 “reranking_candidates=k”（k 为正整数）可生成 k 个候选结果并自动重排，优化分离质量（需权衡 latency 与内存占用）。
多模态提示使用：视觉提示需传入视频帧与掩码，时间片段提示需在调用时指定锚点时间区间（如 [[["+", 6.3, 7.0]]]），无需额外修改核心代码结构。

五、适用人群

媒体创作者：视频剪辑师、音乐制作人、播客主播等需要拆分或提取音频元素的内容创作从业者。
影视后期人员：电影、电视剧后期制作中负责音频处理的专业人员，用于音效分离与替换。
科研与教育工作者：声学研究人员、语言教育工作者，需对音频进行精准拆分分析的学术人群。
音频技术开发者：从事音频处理工具开发的工程师，可基于该模型二次开发定制化应用。
普通用户：有简单音频分离需求（如提取歌曲人声、去除视频杂音）的非专业人群，操作门槛低，易上手。

六、优缺点介绍

优点：

多模态支持：全球首个整合文本、视觉、时间片段三种提示方式的音频分离模型，适配场景广泛。
操作便捷性：一键式提取目标声音，无需专业音频处理知识，自然语言与可视化操作降低使用门槛。
分离质量高：通过多模型评估与候选重排机制，在语音、音乐、乐器、音效等多个场景下均有出色的主观评价得分。
技术创新性：首次复刻人类自然感知声音的方式，实现 AI 音频分离技术的革命性突破。
灵活适配：提供不同尺寸模型变体，可根据设备性能与精度需求选择，兼顾效率与效果。

缺点：

硬件依赖：虽支持 CPU 运行，但复杂场景下需 CUDA 兼容 GPU 才能保障运行效率，对设备有一定要求。
权限限制：模型检查点需申请访问权限并完成身份验证，无法直接公开下载使用。
latency 与内存权衡：开启跨度预测和多候选重排功能时，会增加 latency 与内存占用，影响处理速度。
特定场景优化不足：在复杂混合音效（如多种乐器 + 多人声 + 环境音叠加）中，可能出现目标声音提取不彻底的情况。

分类标签

音频分离工具、多模态 AI 模型、音频处理工具、AI 基础模型、内容创作辅助工具

相关导航

Copilot Audio：微软推出的个性化AI语音生成工具

Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式，支持情感、故事、脚本三种语音风格，带来更具表现力和沉浸感的语音交互体验。

Infinite Talk：无限长度语音视频生成模型

Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目，能够生成无限长度的视频，具有准确的口型同步和一致的身份保留。

Finevoice AI：轻松创建您想象中的声音

FineVoice是由Fineshare推出的多功能AI语音工具，集成了实时变声、语音克隆、文本转语音、语音转文本及AI音效生成等功能，支持149种语言和1000多种AI声音模型，让用户无需专业设备即可创作出专业级配音内容。

阶跃星辰Step-Audio2mini：最强开源端到端语音大模型

阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.