微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star_资讯

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

作者：安安

 时间：2026-03-31 13:56:32

微软近日开源了名为 VibeVoice 的前沿语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音（TTS）等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性，迅速在开发者社区引发关注，目前已在 GitHub 收获约 27K Star。

VibeVoice 并非单一模型，而是一个由三个核心成员组成的模型家族，各司其职，共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

VibeVoice-ASR-7B：长达 60 分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型，拥有 70 亿参数，能够一次性处理长达 60 分钟的音频文件，直接输出结构化转录结果。输出不仅包含“谁在说话”（说话人识别）、“何时说话”（精确时间戳），还包括“说了什么”（详细内容），并支持自定义热词功能，可有效提升专有名词或技术术语的识别准确率。该模型支持超过 50 种语言，适用于长篇会议记录、播客转录等复杂场景。

VibeVoice-TTS-1.5B：90 分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型，拥有 15 亿参数，能在单次生成中产出长达 90 分钟的连续音频，支持最多 4 个不同说话人进行自然对话模拟。模型生成的语音富有表现力，听起来自然流畅，能模拟真实的停顿、强调和情感转折，非常适合制作播客、长音频叙事、有声书或多角色对话内容。相比许多传统 TTS 模型仅支持 1-2 个说话人，VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其官方盲测 MOS（平均意见分数）高达 4.5，接近真人语音质量。

VibeVoice-Realtime-0.5B：约 300 毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景，拥有 5 亿参数，支持流式文本输入，首音频输出延迟约 300 毫秒，同时还能生成约 10 分钟的长篇语音。该模型特别适合需要即时回应的交互应用，如实时语音助手或直播配音场景。此外，项目还引入了实验性说话人支持，包括多语言语音和多种英语风格变体，为开发者提供更多定制空间。

MIT 协议开源，本地部署无需订阅费用

VibeVoice 采用 MIT 许可协议，支持本地部署，无需云端订阅费用，旨在推动语音合成领域的协作与创新。开发者可在 GitHub 仓库和 Hugging Face 获取模型权重，并通过 Colab 等平台快速试用。随着开源社区的持续贡献（如针对 Apple Silicon 的优化 fork），VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。

曾短暂下架，负责任 AI 安全机制完备

项目曾因潜在误用风险短暂下架。语音合成技术确实有被滥用的风险，如伪造语音、制造假音频等。微软通过嵌入音频水印、可听免责声明等安全机制重新上线，体现了负责任 AI 开发的原则——既开源又考虑风险，平衡做得不错。微软明确禁止将该模型用于声音冒充、虚假信息传播或绕过身份验证等用途，并提醒用户遵守法律并标明 AI 生成来源。

核心技术突破：双 Tokenizer 架构与 7.5Hz 超低帧率

VibeVoice 在技术架构上实现了多项突破。传统语音模型使用 50Hz 帧率，VibeVoice 采用 7.5Hz——计算量直接降低 85%，但音质保持稳定。实现方式是双 Tokenizer 架构：文本输入经语义 Tokenizer 理解内容，再经声学 Tokenizer 控制音色，最后通过扩散解码生成音频波形。声学 Tokenizer 采用 σ-VAE 结构，实现 3200 倍压缩率——90 分钟音频的特征表示，只需要传统方法 1/3200 的存储空间。模型基于 Qwen2.5 大语言模型，采用“LLM + 扩散头”的两阶段生成范式，LLM 负责解析文本中的角色标签、语气提示等元信息，扩散头模块则根据语义 token 序列逐步去噪生成高质量的声学 token，最终通过神经声码器还原为波形。

社区响应热烈，实用工具已落地

开源最大的好处就是社区会帮你扩展。已经有开发者基于 VibeVoice-ASR-7B 做出了一个叫 Vibing 的语音输入法，支持 macOS 和 Windows。用户反馈显示其识别速度和准确率都不错，日常语音输入效率提升明显。

VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛，还为本地部署提供了完整解决方案。对于有数据安全要求的企业，这是重大利好——无需再纠结“要不要把语音数据传给第三方”的问题。目前项目仅支持英语与中文，未来将推出参数更大的 7B 版本，支持低延迟交互和更高保真度的实时合成，进一步拓展应用场景

分享到：

智谱发布“澳龙”AutoClaw：集成Pony-Alpha-2模型，人人都能本地养“龙虾”

 2026-03-11
重磅嘉宾官宣 | 跨国企业天大集团技术总监马镭镭博士、德乐中国区数字化总监郑元涵确认出席CDIE2025！

 2025-03-17
华友钴业：2021锂电公司预增王，一体化布局抢占先机！

 2022-11-01
Medeo AI新版视频Agent震撼登场：自然语言一键改剧本，内容创作从此零门槛！

 2025-12-15
谷歌Gemini 3破解百年“天书”，AI首次逼近人类专家破译水平

 2025-11-13
蚂蚁阿福深度进化：PC端重磅升级，为医生群体上线专业级DeepSearch功能

 2026-01-22

热门标签

智谱发布“澳龙”AutoClaw：集成Pony-Alpha-2模型，人人都能本地养“龙虾”

重磅嘉宾官宣 | 跨国企业天大集团技术总监马镭镭博士、德乐中国区数字化总监郑元涵确认出席CDIE2025！

华友钴业：2021锂电公司预增王，一体化布局抢占先机！

Medeo AI新版视频Agent震撼登场：自然语言一键改剧本，内容创作从此零门槛！

谷歌Gemini 3破解百年“天书”，AI首次逼近人类专家破译水平

蚂蚁阿福深度进化：PC端重磅升级，为医生群体上线专业级DeepSearch功能

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198