全球语音AI领域迎来重大突破,小米开源的原生端到端语音大模型在多项基准测试中超越了谷歌和OpenAI的闭源模型。
9月19日,小米正式宣布开源其首个原生端到端语音模型—Xiaomi-MiMo-Audio。该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL(上下文学习)的少样本泛化能力,并在预训练过程中观察到明显的“涌现”行为。
后训练进一步激发了Xiaomi-MiMo-Audio在智商、情商、表现力与安全性在内的跨模态对齐能力,使其语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
01 语音AI的瓶颈
五年前,GPT-3展示了通过自回归语言模型与大规划无标注数据训练,可获得In-Context Learning(ICL,上下文学习)能力。然而在语音领域,现有的大模型仍严重依赖大规模标注数据,难以适应新任务达到类人智能。语音识别和生成技术长期受限于特定领域和大量标注数据的需求,无法像语言模型那样通过无监督学习获得泛化能力。这种局限性使得语音AI的发展速度远远落后于自然语言处理。
02 技术突破
Xiaomi-MiMo-Audio的核心突破在于首次证明把语音无损压缩预训练扩展至1亿小时可以 “涌现”出跨任务的泛化性,表现为Few-Shot Learning能力。这被官方称为语音领域的 “GPT-3 时刻”。该模型还是首个明确语音生成式预训练目标和定义的开源项目,提供了一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系,开启了语音技术的“LLaMA 时刻”。此外,小米首次把“Thinking”同时引入语音理解和语音生成过程中,支持混合思考。
03 性能表现
Xiaomi-MiMo-Audio在多项标准评测中表现亮眼:在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。
04 开源内容
小米采取了简单、彻底和直接的开源风格,以促进语音研究领域的加速发展。开源内容包括两个主要模型:预训练模型MiMo-Audio-7B-Base:是目前开源领域第一个有语音续写能力的语音模型;指令微调模型MiMo-Audio-7B-Instruct:经过轻量级的SFT,7B参数规模最强语音理解和生成模型。MiMo-Audio-7B-Instruct可通过prompt切换non-thinking、thinking两种模式,强化学习起点高、潜力足,可以作为研究语音RL和Agentic训练的全新基座模型。
此外,还开源了Tokenizer模型(参数量达1.2B,采用Transformer架构)、技术报告和评估框架。评估框架支持10多个测评任务,已开源至GitHub。Xiaomi-MiMo-Audio的开源将显著加速语音大模型研究对齐到语言大模型,为语音AGI的发展提供重要基础。
语音AI领域一直受限于对大规模标注数据的依赖,难以实现类似语言模型的少样本泛化能力。小米的这次开源打破了这一瓶颈,为整个行业提供了新的发展方向和基准。小米表示将持续开源,期待与每一位同行者携手,用开放与协作,迈向语音AI的“奇点”,走进未来的人机交互时代。