
一段需要数千文字表达的内容,如今只需几百个视觉token就能精准还原,文本处理的游戏规则正被重新定义。
在大语言模型竞相扩展上下文窗口的竞争中,DeepSeek另辟蹊径,提出了一条全新的技术路径。10月20日,DeepSeek-AI团队开源了DeepSeek-OCR模型,首次提出“上下文光学压缩” 概念,通过将文本转化为图像实现信息的高效压缩。
这种方法的可行性已得到验证:在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;即使在20倍压缩比下,精度仍保持约60%。
当把等量的文本token转化为视觉token后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新思路。
01 破解长文本困境:从平方级计算复杂度到光学压缩
当前所有大语言模型处理长文本时都面临一个根本性困境:计算复杂度呈平方级增长。序列越长,消耗的算力呈指数级增加。
过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。
DeepSeek-OCR团队发现了这一问题背后的关键:文本其实是一种冗余的信息形式。
团队认为:“一张包含文档文本的图像,可以用比等效数字文本少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”
02 技术架构:DeepEncoder与MoE解码器的完美融合
DeepSeek-OCR的架构分为两大核心组件:DeepEncoder视觉编码器和DeepSeek3B-MoE语言解码器。
DeepEncoder:高压缩、高分辨率的视觉编码器
DeepEncoder采用SAM与CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解。
模型使用一个双层的16×卷积压缩模块,能显著减少视觉token数量。
例如,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,而DeepEncoder可将其压缩至仅256个token,使激活内存数量变得更可控。
DeepEncoder还支持多种分辨率模式,从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。
DeepSeek3B-MoE:轻量高效的解码器
在解码端,DeepSeek采用自研的DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。
这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。
03 性能突破:重新定义OCR效率标准
DeepSeek-OCR在实际测试中展现了卓越的性能表现。
在OmniDocBench基准测试中,DeepSeek-OCR只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉token的情况下,性能超过了MinerU2.0(平均每页近7000个token)。
对不同类型文档的分析显示,其token需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。
在训练效率方面,DeepSeek-OCR可在单块A100-40G GPU上每天生成超过20万页的训练数据,为大规模文档理解和多模态模型训练提供支持。
如果扩展到20个节点(160块A100),每天可生成高达3300万页训练数据。
04 深度解析:超越传统OCR的多场景应用能力
DeepSeek-OCR不仅具备传统文字识别功能,还拥有被称为 “深度解析” 的高级能力,可通过二次模型调用实现文档图像的进一步解析。
在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这对金融与科学领域尤为重要。
对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM领域的潜在应用价值。
DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。
此外,模型已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。在多语言测试中,对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。
05 数据引擎:构建高质量的训练体系
DeepSeek搭建了一个庞大的数据数据集,包含四大数据类型。
OCR 1.0数据包含3000万页多语言文档与自然场景文字等;OCR 2.0数据涵盖图表、化学公式、几何图形解析等;通用视觉数据为模型注入基础图像理解能力;
纯文本数据则维持语言流畅度与上下文建模。
从互联网收集的3000万页多语言PDF数据,涵盖约100种语言,其中中英文占2500万页。
对于少数语言,团队还设计了 “模型飞轮”机制——先用有跨语言泛化能力的版面分析模型做检测,再用fitz生成的数据训练GOT-OCR2.0,然后用训练好的模型反过来标注更多数据,循环往复最终生成了60万条样本。
06 光学压缩:模拟人类记忆遗忘机制
DeepSeek-OCR团队提出了一个创新理念——用光学压缩模拟人类的遗忘机制。
团队设想的方法是:把超过第k轮的历史对话内容渲染成图像;初步压缩,实现约10倍的token减少;对于更久远的上下文,继续缩小图像尺寸。
随着图像越来越小,内容也越来越模糊,最终达到“文本遗忘”的效果。这很像人类记忆的衰退曲线,近期信息保持高保真度,久远记忆自然淡化。
虽然这还是个早期研究方向,但如果真能实现,对于处理超长上下文将是个巨大突破——近期上下文保持高分辨率,历史上下文占用更少计算资源,理论上可以支撑“无限上下文”。
DeepSeek-OCR表面是一个OCR模型,实则是对更宏大命题的探索:能否用视觉模态作为LLM文本信息处理的高效压缩媒介? 初步答案显然是肯定的。
该模型已在Hugging Face上开源,技术报告也同步公开。与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,展现出“小而美”团队也能实现重大技术突破。
在AI进化路上,有时候不是做加法,而是做减法。这场文本压缩革命证明,减少有时比增加更有力量。