25日,腾讯混元大模型团队推出开源OCR模型HunyuanOCR,以仅1B参数量在多项OCR应用评测中达到当前最优效果。
11月25日,腾讯混元大模型团队宣布推出开源OCR模型HunyuanOCR,参数规模为1B(10亿)。该模型基于混元原生多模态架构构建,在复杂文档解析、多场景文字检测与识别等多项OCR应用评测中取得当前最优(SOTA)效果。
HunyuanOCR采用端到端训练推理范式,通过单次前向推理即可完成多项任务,相比传统级联方案更具效率优势。
01 模型架构:三组件协同设计
HunyuanOCR作为混元原生多模态端到端OCR专家模型,其架构主要由三大核心组件构成。
原生分辨率视频编码器负责处理高质量视觉输入,自适应视觉适配器起到桥梁作用,而轻量化混元语言模型则承担理解与输出任务。
这种设计使模型在保持仅1B参数量的同时,能够高效处理复杂OCR任务。
与传统OCR系统不同,HunyuanOCR的训练和推理均采用全端到端范式,通过规模化的高质量应用导向数据结合在线强化学习,表现出非常稳健的端到端推理能力。
02 性能表现:多项评测领先
在具体性能表现上,HunyuanOCR在多项权威评测中展现出领先优势。
在复杂文档解析的OmniDocBench测评中,HunyuanOCR获得了94.1分的最高分,效果超过了谷歌的Gemini3-pro等一众领先模型。
在文字检测和识别能力方面,该模型在覆盖文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等九大应用场景的基准测试上,大幅度领先同类开源模型以及商业OCR模型。
同时,在OCRBench榜单上,HunyuanOCR总得分为860分,以仅1B的总参数配置,取得了包括通用视觉理解模型在内总参数3B以下的SOTA成绩。
03 多语言支持与实战应用
HunyuanOCR还具备强大的多语言支持能力,可支持14种小语种翻译,并在ICDAR2025文档翻译比赛中获得小模型赛道冠军。
目前,该模型已应用于多个实际场景,包括票据字段抽取、视频字幕识别及拍照翻译等,并正式对外开放源代码。
得益于混元原生多模态大模型“端到端”的理念设计,HunyuanOCR展现出高度易用性,不仅体积小便于部署,而且各功能仅需单次前向推理即可直达最优结果,较业界级联方案更高效和便捷。
> 随着HunyuanOCR的开源,开发者和企业能够更方便地将高性能OCR能力集成到自己的应用中。
> 这款仅1B参数的“小模型”展现出的“大能力”,预示着OCR技术将在更多场景中落地生根。