微软近日开源了名为 VibeVoice 的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约 27K Star。
VibeVoice 并非单一模型,而是一个由三个核心成员组成的模型家族,各司其职,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。
VibeVoice-ASR-7B:长达 60 分钟的结构化语音转文本利器
VibeVoice-ASR-7B 是一个统一的语音转文本模型,拥有 70 亿参数,能够一次性处理长达 60 分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过 50 种语言,适用于长篇会议记录、播客转录等复杂场景。
VibeVoice-TTS-1.5B:90 分钟多说话人富有表现力的语音生成
VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,拥有 15 亿参数,能在单次生成中产出长达 90 分钟的连续音频,支持最多 4 个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。相比许多传统 TTS 模型仅支持 1-2 个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其官方盲测 MOS(平均意见分数)高达 4.5,接近真人语音质量。
VibeVoice-Realtime-0.5B:约 300 毫秒延迟的实时 TTS
VibeVoice-Realtime-0.5B 专注于实时场景,拥有 5 亿参数,支持流式文本输入,首音频输出延迟约 300 毫秒,同时还能生成约 10 分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。
MIT 协议开源,本地部署无需订阅费用
VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。
曾短暂下架,负责任 AI 安全机制完备
项目曾因潜在误用风险短暂下架。语音合成技术确实有被滥用的风险,如伪造语音、制造假音频等。微软通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则——既开源又考虑风险,平衡做得不错。微软明确禁止将该模型用于声音冒充、虚假信息传播或绕过身份验证等用途,并提醒用户遵守法律并标明 AI 生成来源。
核心技术突破:双 Tokenizer 架构与 7.5Hz 超低帧率
VibeVoice 在技术架构上实现了多项突破。传统语音模型使用 50Hz 帧率,VibeVoice 采用 7.5Hz——计算量直接降低 85%,但音质保持稳定。实现方式是双 Tokenizer 架构:文本输入经语义 Tokenizer 理解内容,再经声学 Tokenizer 控制音色,最后通过扩散解码生成音频波形。声学 Tokenizer 采用 σ-VAE 结构,实现 3200 倍压缩率——90 分钟音频的特征表示,只需要传统方法 1/3200 的存储空间。模型基于 Qwen2.5 大语言模型,采用“LLM + 扩散头”的两阶段生成范式,LLM 负责解析文本中的角色标签、语气提示等元信息,扩散头模块则根据语义 token 序列逐步去噪生成高质量的声学 token,最终通过神经声码器还原为波形。
社区响应热烈,实用工具已落地
开源最大的好处就是社区会帮你扩展。已经有开发者基于 VibeVoice-ASR-7B 做出了一个叫 Vibing 的语音输入法,支持 macOS 和 Windows。用户反馈显示其识别速度和准确率都不错,日常语音输入效率提升明显。
VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。对于有数据安全要求的企业,这是重大利好——无需再纠结“要不要把语音数据传给第三方”的问题。目前项目仅支持英语与中文,未来将推出参数更大的 7B 版本,支持低延迟交互和更高保真度的实时合成,进一步拓展应用场景