近日,苹果公司研究团队在最新发表的论文中,提出了一种名为 “基于清单反馈的强化学习”(RLCF,Reinforcement Learning from Checklist Feedback)的大语言模型创新训练方法。该方法通过以具体任务清单替代传统人工点赞评分机制,有效突破了现有技术瓶颈,大幅提升了大语言模型执行复杂指令的能力,为行业发展提供了新方向。
据悉,RLCF 与当前广泛应用的 “人类反馈强化学习”(RLHF)方法存在显著差异。传统 RLHF 方法主要依靠人工进行 “点赞”“点踩” 等简单二元评价,反馈精度有限;而 RLCF 针对每条用户指令生成详细检查清单,按 0-100 分标准对各项内容进行精准评分,以此为模型优化提供更科学、更细致的指导依据,进一步提升了训练效率与效果。
为验证 RLCF 方法的有效性,苹果研究团队选取强指令跟随模型 Qwen2.5-7B-Instruct 作为测试对象,在五个常用评测基准上开展全面验证。测试结果显示,RLCF 是唯一在所有测试项目中均实现性能提升的训练方案,优势显著。具体数据表明,在 FollowBench 测试中,模型硬性满意率提升 4 个百分点;InFoBench 评分提高 6 点;Arena-Hard 胜率增加 3 点;在部分特定任务中,性能提升幅度最高达 8.2%。这一系列数据充分证明,RLCF 方法在处理复杂多步骤任务时表现尤为突出,具备较强的实用价值。
在技术实现层面,苹果团队的清单生成过程极具创新性。研究人员采用更大规模的 Qwen2.5-72B-Instruct 模型,结合现有成熟研究方法,为 13 万条指令构建了名为 “WildChecklists” 的专用数据集。清单内容均设计为 “是否翻译成西班牙语” 等明确的二元判断项,确保评价标准统一。随后,大模型对候选回答逐项评分,经综合加权处理后形成训练奖励信号,精准指导小模型完成学习优化。
同时,苹果研究人员也客观指出了该方法的局限性:一是 RLCF 需依赖更强大的模型作为评判标准,在计算资源受限的场景下,实施难度较大;二是该方法聚焦于提升复杂指令执行能力,并非用于安全对齐,无法替代现有安全性评估与调优机制;三是其在其他类型 AI 任务中的适用性,仍需进一步通过实验验证。