
4000万篇医学论文、六源循证推理、医疗幻觉率降低3倍,这是一款为临床医生设计的AI助手。
百川智能10月22日发布循证增强医疗大模型Baichuan-M2 Plus,同步升级配套应用“百小应”并开放API。
这款被称为“医生版ChatGPT”的产品采用首创的六源循证推理范式,整合了4000余万篇医学期刊论文等权威来源。
评测显示,其医疗幻觉率较通用大模型显著降低,相比DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度达到资深临床医生水准。
01 六源循证:构建完整医学知识体系
Baichuan-M2 Plus的核心理念是循证医学,即基于证据的医疗决策。
现代医学实践中,医生们的决策严重依赖于最新医学文献、临床指南和病例研究,而通用大模型往往像一个“博学但不可靠”的专家。
即使具备搜索增强功能,也因知识来源混杂而不符合循证医学范式。
百川智能为此构建了六层证据类型的知识体系:
- 原始研究层:索引海量医学期刊论文4000余万篇,超过PubMed收录数量
- 证据综述层:整合系统评价和Meta分析等高等级证据
- 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识
- 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧
- 公共健康教育层:汇集权威科普和公共卫生知识
- 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据
这个金字塔形的“六源”构成从证据到实践的完整知识体系,让模型从“生成答案”走向“据实回答”,实现从语言可信度到知识可信度的跃升。
02 循证检索:精准定位医学证据
传统RAG检索往往追求“找得到”,而Baichuan-M2 Plus的循证检索追求“找得准”。
模型采用 PICO框架思维——包括人群、干预、对照、结局四个要素,将查询转化为结构化医学问题。
当用户输入“老年OSA患者使用CPAP能否改善高血压?”这类问题时,系统会优先在高等级证据中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。
这种方法克服了通用RAG的两大缺陷:一是缺乏医学语义理解;二是无法辨别文献可靠性。
Baichuan-M2 Plus通过三步精准锁定“铁证”:
1. 智能提问:自动将用户问题拆解成多个专业的PICO查询
2. 精准锁定:通过自研的Medical Contextual Retrieval技术,完整保留文献的临床因果链
3. 证据排序:内置“审稿人”模型,自动评估证据等级,将最可信、最相关的证据优先呈现
03 循证推理:像医生一样思考
“六源循证”解决了医疗AI知识的来源问题,“PICO智能检索”解决了如何快速找到正确证据的问题,而最关键的是确保AI在手握证据时不会“自由发挥”。
Baichuan-M2 Plus引入 “循证增强训练”机制 ,从根本上改变了模型生成逻辑,让它学会“引用,而非臆测”。
具体而言,百川在训练中奖励“引用”,惩罚“臆测”——准确引用权威来源时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚。
模型内置“证据评估器”,能够自动评估检索到的证据质量,优先采纳高可信度的信息,并将其无缝嵌入到推理链中。
经过训练后,Baichuan-M2 Plus的回答风格发生了根本性改变:在输出关键结论时,会自动附上参考文献、指南出处等来源,实现“句句有据,可回溯、可验证”。
04 实际应用:辅助临床决策
这种“循证驱动”的生成逻辑,让Baichuan-M2 Plus几乎杜绝了无中生有的内容。
301医院的姜医生在询问“目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些”时,发现很多通用大模型都产生了明显幻觉。
而Baichuan-M2 Plus的回答不仅查到了全球最新研究成果,还能按纳米系统/AAV病毒载体等维度分类。
姜医生评价道:“引用文献非常具有专业性、且信息源紧贴顶刊ERA等最新进展,对足细胞基因治疗这么前沿的方向,能帮我快速了解国际热点技术路线,少走弯路。”
北京天坛医院的熊医生在研究PACAP在偏头痛中的研究进展时,也肯定了该模型的能力:“能梳理全球PACAP偏头痛研究,从机制到III期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。”
05 多国医学考试表现优异
在美国执业医师资格考试(USMLE)——这一评估临床知识和推理能力的黄金标准中,Baichuan-M2 Plus取得了97分的高分。
这不仅远超人类考生平均水平,更与GPT-5的成绩持平,稳居全球第一梯队。
在中国执业医师资格考试(NMLE)中,Baichuan-M2 Plus更是取得了568分的“碾压级”成绩。
该考试的及格线为360分,对于广大医学生而言,能考到450分以上已是高分,超过500分则被视为“学神”级别。
此外,在中国硕士研究生招生考试临床医学综合能力(西医)考试中,该模型取得了282分,这一成绩通常只有协和、北医等顶尖学府的头部学霸才能达到。
同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,其准确率也达85%以上,远超各国及格线。
Baichuan-M2 Plus的发布标志着医疗大模型正式迈入“敢用、可用”阶段。
随着大模型普及,患者使用DeepSeek自诊和带着DeepSeek就医的现象日益增多,医生急需能够甄别信息真伪的专业工具。
百川智能推出的“医生版ChatGPT”有望成为医生面对通用模型挑战的“专属武器”,为医院、互联网医疗等机构提供可信AI支撑。