近日,巨人网络旗下 AI Lab 与清华大学电子工程系 SATLab 研究团队达成深度合作,联合推出多方言语音合成大模型框架 DiaMoE-TTS。
这一创新性成果不仅填补了方言语音合成领域的技术空白,更开创性地实现了数据、代码、方法的全方位开源,为推动方言语音合成技术的公平化与普惠化发展奠定了坚实基础。
当前,通用 TTS(文本转语音)技术在大模型的助力下已取得突破性进展,语音合成的自然度、流畅度均达到较高水平。
然而,方言 TTS 领域却始终处于行业发展的 “灰色地带”,技术突破面临诸多瓶颈。
现有工业级方言 TTS 模型对专有数据的依赖度极高,需要海量标注数据作为支撑,这使得广大方言研究者、从业者面临两大核心难题:
一是缺乏统一、规范的方言语料构建标准与方法,导致语料质量参差不齐;
二是缺乏可复用的端到端开源框架,技术研发难以高效推进,严重制约了方言语音合成技术的普及与应用。
此次巨人网络 AI Lab 与清华大学电子工程系 SATLab 联合研发的 DiaMoE-TTS 框架,针对上述行业痛点提供了系统性解决方案。
经实践验证,该框架的合成性能已在一定程度上达到工业级方言 TTS 模型水平,其核心创新点主要体现在两大方面:
其二,实现数据高效利用。DiaMoE-TTS 框架打破了对巨量专有数据的依赖,仅通过开源方言 ASR(自动语音识别)数据即可完成模型训练,大幅降低了数据获取成本与技术研发门槛,为资源有限的研究机构与开发者提供了可行的技术路径。
在面向中文方言落地之前,该研究团队已在多语种场景中对 DiaMoE-TTS 框架进行了充分验证,成功应用于英语、法语、德语、荷兰比尔茨语等语言的语音合成任务,充分证明了该框架在全球范围内的多语言可扩展性与技术稳健性,为后续中文方言版本的推广奠定了可靠基础。
巨人网络 AI Lab 与清华大学电子工程系 SATLab 表示,DiaMoE-TTS 框架的开源,旨在打破技术壁垒,让全球范围内的研究者、开发者及语言文化保护工作者能够自由使用、优化与扩展该框架。
未来,双方将持续推动技术迭代,助力小众语言与方言在通用大模型时代得以有效传承,让更多方言的独特声音被听见、被记录、被传承,为语言文化多样性保护与语音技术普惠发展贡献力量。