微软开源 VibeVoice 语音 AI：90 分钟多说话人生成，GitHub 狂揽 27K Star

微软近日开源了名为 VibeVoice 的前沿语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音（TTS）等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性，迅速在开发者社区引发关注，目前已在 GitHub 收获约 27K Star，成为开源语音 AI 领域的现象级项目。

一、三大核心模型：覆盖语音 AI 全场景

VibeVoice 模型家族主要包括三个核心成员，各有侧重，共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。作为开源研究框架，VibeVoice 采用 MIT 许可协议，支持本地部署，无需云端订阅费用，旨在推动语音合成领域的协作与创新。

VibeVoice-ASR-7B是长达 60 分钟的结构化语音转文本利器。这是一个统一的语音转文本模型，能够一次性处理长达 60 分钟的音频文件，直接输出结构化转录结果。输出不仅包含"谁在说话"（说话人识别）、"何时说话"（精确时间戳），还包括"说了什么"（详细内容），并支持自定义热词功能，可有效提升专有名词或技术术语的识别准确率。该模型支持超过 50 种语言，适用于长篇会议记录、播客转录等复杂场景。

VibeVoice-TTS-1.5B是 90 分钟多说话人富有表现力的语音生成模型。这是专注于文本转语音的核心模型，能在单次生成中产出长达 90 分钟的连续音频，支持最多 4 个不同说话人进行自然对话模拟。模型生成的语音富有表现力，听起来自然流畅，能模拟真实的停顿、强调和情感转折，非常适合制作播客、长音频叙事、有声书或多角色对话内容。

二、技术突破：长序列处理与低延迟实时生成

相比许多传统 TTS 模型仅支持 1-2 个说话人，VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器（声学与语义分词器）结合低帧率设计（7.5Hz），大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B专注于实时场景，支持流式文本输入，首音频输出延迟约 300 毫秒，同时还能生成约 10 分钟的长篇语音。该模型特别适合需要即时回应的交互应用，如实时语音助手或直播配音场景。此外，项目还引入了实验性说话人支持，包括多语言语音和多种英语风格变体，为开发者提供更多定制空间。

社区开发者已基于该模型开发出实用工具，例如一款名为 Vibing 的语音输入法，支持 macOS 和 Windows 平台。用户反馈显示，其识别速度和准确率表现不错，可显著提升日常语音输入效率。

三、开源生态：负责任 AI 与社区共建

微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛，还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架，后通过嵌入音频水印、可听免责声明等安全机制重新上线，体现了负责任 AI 开发的原则。

目前，开发者可在 GitHub 仓库和 Hugging Face 获取模型权重，并通过 Colab 等平台快速试用。项目地址：https://github.com/microsoft/VibeVoice

随着开源社区的持续贡献（如针对 Apple Silicon 的优化 fork），VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。业内专家指出，微软此次开源行动将推动语音 AI 技术从云端走向边缘，让更多开发者和企业能够低成本部署高性能语音能力。

AD：精心整理了2000+好用的AI工具！点此获取

微软开源 VibeVoice 语音 AI：90 分钟多说话人生成，GitHub 狂揽 27K Star

一、三大核心模型：覆盖语音 AI 全场景

二、技术突破：长序列处理与低延迟实时生成

三、开源生态：负责任 AI 与社区共建

智元机器人万台量产下线：15 个月十倍增速，人形机器人迈入工业化时代

Runway 推出 Multi-Shot App：AI 视频一键成片，电影级创作触手可及

玉米AI助手

微软开源 VibeVoice 语音 AI：90 分钟多说话人生成，GitHub 狂揽 27K Star

一、三大核心模型：覆盖语音 AI 全场景

二、技术突破：长序列处理与低延迟实时生成

三、开源生态：负责任 AI 与社区共建

智元机器人万台量产下线：15 个月十倍增速，人形机器人迈入工业化时代

Runway 推出 Multi-Shot App：AI 视频一键成片，电影级创作触手可及

相关推荐

玉米AI助手

搜索

微软开源 VibeVoice 语音 AI：90 分钟多说话人生成，GitHub 狂揽 27K Star

微软开源 VibeVoice 语音 AI：90 分钟多说话人生成，GitHub 狂揽 27K Star