国际音标与混合专家的结合,让机器也能说出地道的广东话、四川话、上海话,而这一切无需海量专有数据。
清华大学电子工程系与巨人网络AILab昨日联合宣布,推出全球首个基于混合专家架构的多方言语音合成大模型框架——DiaMoE-TTS,并将数据、代码及方法全面开源。
这一突破性技术为解决方言语音合成长期面临的数据匮乏、缺乏统一标准等问题提供了可行的解决方案,让方言保护在数字时代迎来新的可能。
01 灰色地带的突围
在通用语音合成技术日益成熟的今天,方言语音合成却仍是“灰色地带”。
现有的工业级TTS模型通常依赖巨量专有数据,这让方言研究者和从业者几乎无从下手。
缺乏统一的语料构建方法,更没有可实现多语言的端到端开源框架,许多小众语言和方言的声音正逐渐被数字时代湮没。
巨人网络AILab与清华大学电子工程系SATLab的研究团队正是瞄准了这一痛点,致力于推动方言语音合成的公平与普惠。
02 技术突破:三大创新点
DiaMoE-TTS框架的核心突破可归纳为三大技术创新。
统一的IPA表达体系是该框架的基石。
研究团队基于语言学家的专业经验,构建了国际音标(IPA)作为跨方言音系标准化体系。
这一设计将所有方言的语音映射到同一音素空间,消除了跨方言间的差异性。
方言感知混合专家架构(Mixture-of-Experts)解决了传统单一建模网络导致的“风格平均化”问题。
通过引入多个专家网络,让不同的专家专注于学习不同方言的特征。
动态门控机制会根据输入IPA自动选择最合适的专家路由,从而保留每种方言的独特音色和韵律。
参数高效迁移策略(PEFT)针对低资源方言的适配问题。
仅在text embedding层和DiT的注意力层中融入Conditioning Adapter与LoRA,仅需微调少量参数即可完成方言扩展。
这种方法甚至可以在仅有数小时语料的情况下实现有效建模。
03 验证与应用:从中华方言到世界语言
研究团队已在多语种环境中验证了该框架的可行性与稳健性。
在推出广东话、四川话、上海话等中文方言版本前,该方案已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行了充分测试。
团队提供了具体的合成样例:
- 成都话:“祝福大家前程似锦,顺水顺风。”
- 郑州话:“祝你前途大好,成就非凡!”
- 粤语:“我系钟意广州嘅春天。”
值得注意的是,DiaMoE-TTS仅依赖开源方言ASR数据,未使用任何专有数据,却在多个指标上接近工业级模型表现。
04 开源共享:推动方言普惠
DiaMoE-TTS不仅仅是一个单点模型,更是面向学术界与开源社区的全链路贡献。
团队开源了完整的数据预处理流程、统一的IPA标注与对齐方法、完整的训练与推理代码,以及方言感知MoE架构与低资源适配策略。
论文“DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation”已在Arxiv发布,代码和训练推理脚本均已上传至GitHub。
这种全面开源的方法将大幅降低方言语音合成的技术门槛。
打开DiaMoE-TTS的GitHub仓库,一行行代码正在无声地诉说着方言的未来。
技术的力量不在于复制主流,而在于守护那些即将消失的声音。
随着更多开发者加入,四川话的诙谐、吴侬软语的温柔、粤语的古韵,都将穿越数字屏障,在未来世界继续回荡。