如果说AI的“大脑”负责思考,“眼睛”负责观察,那么现在,小米给AI装上了一个“有灵魂的嘴巴”。3月19日,在小米春季新品发布会上,小米正式发布了自研语音合成大模型 Xiaomi MiMo-V2-TTS。这款模型不仅让机器说话不再“机械”,更是集情感演绎、方言切换、甚至开口唱歌于一身,被网友戏称为“被造车耽误的声优”终于上岗了。
告别“机械嗓”:能哭能笑,还能唱高音
传统的语音合成往往听起来像一个字一个字蹦出来的“复读机”,而MiMo-V2-TTS的诞生,标志着语音技术正从“能说话”向“会说话”实现质的跨越。
据介绍,MiMo-V2-TTS最大的亮点在于其多粒度情绪控制能力。它不仅仅能设定一段话的整体语调是“温柔”还是“激昂”,更厉害的是,它能在同一句话内完成语气转折和情感的细腻递变。比如那句经典的“我本来很生气……但听你这么说,我又有点感动了”,模型能够精准演绎出前后截然不同的情绪反差,听起来毫无违和感。
除了“情感大师”的身份,它还是一个天赋异禀的“跨界歌者”。基于对音高和节奏的精确建模,MiMo-V2-TTS能够实现高质量的歌声合成,唱起歌来自然且富有表现力,彻底打破了以往TTS模型“唱歌像念歌词”的尴尬局面。
方言十级:东北话、粤语、河南话信手拈来
为了贴近不同地域用户的使用习惯,MiMo-V2-TTS展现出了极强的跨地域适应性。目前,该模型已支持包括东北话、四川话、河南话、粤语以及台湾腔在内的多种方言。
这意味着,当你对着智能音箱用方言提问时,它不再用标准的普通话“冷冰冰”地回应,而是能用同样的乡音跟你“唠嗑”,甚至能进行角色扮演式的风格化演绎。这种沉浸式的交互体验,将显著提升智能座舱、智能家居等场景的用户亲近感。
技术解码:上亿小时数据“喂”出来的戏精
如此逼真的表现力背后,是强大的技术架构在支撑。MiMo-V2-TTS基于小米自研的Audio Tokenizer及多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练构建而成。
为了让声音既有“花样”又不“翻车”,小米还引入了多维度强化学习。模型在预训练阶段通过大量文本-语音对齐数据,学会了智能识别文本中的标点符号、语气词、强调标记等“潜台词”,并将其自动转化为恰当的语音表达,全程无需用户额外标注或手动干预。
不只是“嘴巴”:MiMo-V2三巨头合体
值得注意的是,MiMo-V2-TTS并非单打独斗。此次小米一口气发布了三款自研大模型,另外两款分别是旗舰基座模型MiMo-V2-Pro(负责推理规划的“大脑”)和全模态模型MiMo-V2-Omni(负责感知理解的“眼睛和耳朵”)。
这三款模型构成了一个完整的AI智能体能力栈:Pro想清楚、Omni看明白、TTS说动人。目前,三款模型已同步登陆Xiaomi miclaw(手机端AI智能体)、WPS灵犀、小米浏览器等应用,并通过OpenClaw等五大Agent开发框架向开发者开放限时免费体验。
雷军在发布会上表示,小米在AI领域今年的研发和资本投入就将超过160亿元人民币,未来三年预计投入至少600亿元。当AI不仅能看懂世界,更能以富有感染力的乡音和情绪去讲述世界时,人机交互的下一个想象空间,已然被小米叩开。