医学影像分析不再局限于二维“看片”,临床语音转录错误率最低可达5.2%,谷歌正在将开源医疗AI推向一个全新的维度。
当地时间2026年1月13日,谷歌研究院正式发布了新一代开源医疗AI模型MedGemma 1.5及其专用语音转文本模型MedASR。
MedGemma 1.5的最大突破在于其能够处理CT、MRI三维容积数据和全玻片病理图像,使AI的医学影像理解从二维平面迈入三维空间。这标志着医疗AI正从“通用大模型”向“专用小模型”加速演进。
01 技术升级
MedGemma 1.5的发布,是谷歌对其医疗AI开源家族的一次重要升级。与此前主要处理二维医学影像不同,新版本原生支持高维医疗数据。
谷歌在内部基准测试中,MedGemma 1.5在疾病相关CT发现分类上的准确率相比上一代提升3%,在MRI发现分类上提升14%。
更值得注意的是,该模型在病理切片分析任务中的ROUGE-L评分从0.02跃升至0.49,达到了与专用模型相当的水平。
除了影像诊断,新模型在解剖定位、纵向病例对比以及从非结构化实验报告中提取数据等方面,均展现了显著的能力提升。
02 语音革命
与MedGemma 1.5同步发布的,是专为医疗场景优化的语音识别模型MedASR。这款模型基于约5000小时的医疗音频训练,涵盖放射科、内科和家庭医学等多个专科。
在复杂的医学术语听写任务中,MedASR表现卓越。在胸部X光听写测试中,其词错误率仅为5.2%,显著低于OpenAI通用模型Whisper large-v3的12.5%。
MedASR可本地运行,也能通过谷歌Vertex AI部署或基于专有数据微调。谷歌强调,该模型旨在作为“高效医疗语音应用”的基础模型。
虽然性能优异,但谷歌明确表示,MedASR的输出为“初步结果”,仍需临床验证和进一步调查,不能直接用于临床诊断或治疗决策。
03 协同应用
这两个模型的设计思路体现了谷歌构建完整医疗AI工作流的战略考量。
在实际应用中,MedASR能够转录医患对话或医生口述,随后由MedGemma处理这些文本及相关的医学影像,最终生成临床笔记,如SOAP格式的病程记录。
这种“语音录入-影像分析-报告生成”的全链路整合,有望显著提高临床工作效率。
根据美国医学会2022年的报告,行政文档工作占据了医生高达49%的时间。这类AI工具的集成,可能将医生从繁重的文书工作中解放出来。
04 边缘部署
值得注意的是,谷歌此次特别强调发布了40亿参数的“小模型”版本。在动辄千亿参数的大模型时代,这一选择体现了独特的产业洞察。
医疗行业对数据隐私和安全有极高要求,许多医疗机构无法将患者数据上传至公有云。4B参数的模型体积足够小,可以在医院内部服务器甚至医生工作站上离线运行,确保“数据不出院”。
对医疗软件开发商而言,基于轻量级模型开发应用的成本远低于调用巨型云端模型,使AI功能大规模集成到现有医院系统中变得商业可行。
05 行业影响
谷歌此次发布正值医疗AI市场竞争加剧之际。就在此前不久,OpenAI推出了“OpenAI for Healthcare”和“ChatGPT Health”,微软也长期深耕医疗语音领域。
与竞争对手不同,谷歌选择了开源路径。这些模型已通过Hugging Face和谷歌云的Vertex AI平台提供,大幅降低了医疗机构和开发者采用先进AI技术的门槛。
全球医疗AI市场正经历快速增长。据Grand View Research预测,到2030年该市场规模将达到1879.5亿美元。麦肯锡2023年的研究显示,AI可能每年为医疗经济增加高达1500亿美元的价值。
在中国市场,政策层面也为AI医疗发展提供了明确路径。国家卫健委等五部门于2025年10月联合发文,明确到2027年形成一批临床专病垂直大模型和智能体应用、2030年基层诊疗智能辅助应用基本全覆盖的目标。
谷歌的开源策略正在重塑医疗AI生态。技术竞争焦点正从“谁有更好的模型”转向“谁能更好地将模型集成到医生工作流中”。
轻量化、专业化的开源模型如MedGemma 1.5和MedASR,使得全球更多医疗机构,特别是资源有限的基层机构,能够触手可及地应用前沿AI技术。
当高维影像分析与精准语音识别相结合,医疗AI不再仅仅是实验室里的尖端科技,正真正成为临床医生日常工作中有力的辅助工具。