过去,我们习惯于把大模型看作一个需要人类手把手调教的“工具”;但如今,这个工具开始学会给自己“上课”了。3月18日,国产AI大模型公司MiniMax发布了新一代Agent旗舰大模型M2.7,首次公开展示了 “模型自我进化” 的技术路径。这不仅是性能的跃升,更标志着AI从“被动执行”向“主动演化”的范式转变,仿佛在AI的“套娃”结构中,最内层的那一个也开始拥有了自我意识。
当模型成为自己的“程序员”
M2.7的核心突破在于它构建了一套名为 Agent Harness(智能体执行框架) 的复杂体系。简单来说,这个框架让模型不再只是一个等待指令的“执行者”,而是深度参与到自身的训练、优化与迭代流程中,成为了研发团队的一部分。
在具体的研发实践中,M2.7展现出了惊人的“自我迭代”能力。例如在强化学习场景中,它能够从一个实验设想出发,自动完成文献调研、实验设计、任务执行,甚至在过程中自动进行日志分析、Bug排查、代码修复和指标优化。官方数据显示,在部分内部研发流程中,M2.7已可承担30%至50%的工作量,并在内部评测集上实现了约30%的效果提升。
更具突破性的是其 “自我优化闭环” 能力。在内部测试中,M2.7可以连续执行超过100轮“分析—改进—验证”的循环,自主调整采样参数、优化工作流策略。这意味着,模型正在摆脱对人工调参的完全依赖,开始具备真正的“自主进化能力”。
硬核实力:从写代码到修Bug的全能选手
除了理念上的革新,M2.7在具体能力表现上也交出了一份亮眼的成绩单。
在软件工程领域,M2.7在权威测试集SWE-bench Pro中取得了56.22% 的正确率,接近国际顶级模型水平。它不仅能生成代码,更像一个资深的网站可靠性工程师。在线上生产环境故障调试中,M2.7能够结合监控指标、部署时间线进行因果分析,甚至主动连接数据库验证假设。基于M2.7,部分线上生产系统故障的修复时间已可缩短至3分钟以内。
在办公生产力场景,M2.7同样表现出色。它在GDPval-AA评测中的ELO得分高达1495,为开源模型最高。无论是处理复杂的Excel表格、生成Word报告还是制作PPT,它不仅能生成内容,还支持高达97%指令遵循率的多轮高保真编辑。
多智能体协作与交互范式的新探索
M2.7还强化了 “多智能体协作” 能力。在这一模式下,模型需要同时扮演多个角色,进行对抗性推理与协同决策。例如,它可以组建一个包含主持人和多名玩家的“Agent团队”,在完全自主的状态下跑通“谁是卧底”这类复杂游戏的全流程,这对模型的逻辑一致性与协议遵循能力提出了极高要求。
此外,MiniMax也在探索AI的“非生产力边界”。基于增强的人设保持与情感交互能力,M2.7支撑起了全新的互动娱乐产品OpenRoom。它将AI交互延伸至沉浸式Web环境,让对话不仅是信息交换,更能实时产生视觉反馈与场景交互,探索“对话即界面”的新可能。
随着OpenClaw等Agent框架的走红,AI行业的竞争焦点正从单一的“模型能力”转向“执行系统能力”。分析人士认为,M2.7的发布标志着国内厂商正在尝试定义下一阶段的技术路线——以Agent为核心、以自我进化为驱动的AI系统。
如果这种“自我进化”能力进一步成熟,未来的AI系统或将实现从数据构建、模型训练到评测优化的全流程自动化。这不仅将大幅压缩研发周期,更可能从根本上重塑AI产业的成本结构与竞争格局。
目前,M2.7已在MiniMax Agent及开放平台全球上线,这款能够“自我迭代”的模型将在真实场景中接受检验,而它的表现,也将成为判断“自我进化”这一新范式商业价值的关键。