微软首次推出自主研制的两款AI模型,语音生成效率惊人,并在Copilot产品线中开始替代OpenAI技术。微软人工智能部门于2025年8月29日宣布推出其首批两款自研AI模型——MAI-Voice-1语音模型与MAI-1-preview通用模型。这也是微软在AI领域迈向更加独立自主的关键一步。MAI-Voice-1仅需单块GPU,就能在1秒内生成时长1分钟的音频,目前已应用于“Copilot Daily”的新闻播报功能。
微软此次发布的两款模型各有侧重,瞄准不同应用场景。MAI-Voice-1语音模型主打高效率语音生成。它能够在单块GPU上运行,并在不到一秒的时间内生成一分钟时长的音频内容。这种效率使得实时语音应用成为可能,用户几乎感觉不到延迟。MAI-1-preview则是一款专注于文本处理的通用模型。它的训练过程动用了约1.5万块英伟达H100 GPU,具备强大的指令理解和遵循能力,能够为日常咨询提供实用回应。
微软已经将MAI-Voice-1投入实际应用中。在“Copilot Daily”功能中,AI主持人通过该模型播报当日热点新闻,还能生成播客风格的对话内容,帮助用户理解各类话题。普通用户可以在Copilot Labs平台体验MAI-Voice-1模型,不仅能输入希望AI表达的内容,还可自定义语音音色与说话风格。这种高度的自定义功能为用户提供了更加个性化的体验。MAI-1-preview模型则已在AI基准测试平台LMArena上进行公开测试,为接下来的大规模应用做准备。
微软此次推出自研模型,被视为其在AI领域减少对OpenAI依赖的重要举措。有媒体将这次发布形容为“与OpenAI合作之外的独立宣言”,显现微软在AI生态中隐性转型的意图。目前,Copilot主要依赖OpenAI的大型语言模型,但微软计划将MAI-1-preview模型应用于Copilot助手的特定文本使用场景,逐步实现技术替代。微软AI负责人穆斯塔法・苏莱曼曾表示,公司内部研发的AI模型重点是构建适配“消费者伙伴”定位的模型,整合针对不同用户需求与应用场景的专业模型。
苏莱曼在去年的《Decoder》播客节目中解释了微软的自研模型策略。他表示:“我的思路是,我们必须打造一款对消费者而言体验极佳的产品,并针对自身应用场景进行深度优化。在广告业务、消费者行为数据等领域,我们拥有海量高预测性、高实用性的数据”。这种基于实际用户数据和行为的优化思路,可能使微软的AI产品更加贴近普通消费者的需求,区别于专注于企业级应用的策略。
微软AI团队在官方博客中表示:“我们对未来发展有着宏大规划。接下来,我们不仅会持续推进技术突破,更相信通过整合一系列针对不同用户需求与应用场景的专业模型,将释放出巨大价值。”据报道,MAI-1-preview模型基于混合专家(MoE)架构,目前在LMArena社区排行榜中位列第13名,并向部分开发者提供API试用申请。接下来几周,该模型将率先在部分Copilot文本场景中进行灰度发布,用于收集用户反馈并持续优化。微软AI首席执行官穆斯塔法・苏莱曼表示:“这仅仅是个开端。”
公司未来将持续推进模型迭代、优化计算架构,并将AI深度融入Windows、Office、Azure等全线产品,致力于实现“为所有人构建AI”的愿景。微软此次发布自研模型,不仅是技术能力的展示,更是AI战略布局的重要调整。从依赖合作伙伴到自主研发,微软正在打造更加完整和独立的AI生态体系。