news 2026/4/23 12:40:29

不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2

与上一代产品相比,DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠,而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成,核心突破在于引入了DeepEncoder V2,将视觉信息的处理方式从传统的“固定栅格扫描”转变为“基于语义的因果推理”。

以下是对该模型架构、核心机制及评估结果的某些技术层面的解析。

1. 核心架构演进:从固定扫描到因果流

传统的视觉语言模型(VLM)通常采用光栅扫描顺序(raster-scan order),即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版(如多栏文档、报表、公式混排)时,往往难以捕捉内容之间真实的逻辑关系。

DeepSeek-OCR 2 延续了前代的 Encoder-Decoder 整体框架(如图 3 所示),但对 Encoder 进行了关键性的替换。

模型保留了 3B 参数量的 Mixture-of-Experts (MoE) 解码器,但在编码端,DeepEncoder V2 放弃了前代基于 CLIP 的编码器方案,转而采用了一个轻量级的语言模型(Qwen2-500M)作为视觉编码的主干。

这一设计的核心逻辑在于构建一个两级级联的因果推理结构(Two-cascaded 1D causal reasoning structure):

  1. 第一级(Encoder):通过可学习的查询(Query)对视觉 Token 进行语义层面的重排;
  2. 第二级(Decoder):基于重排后的有序序列执行自回归文本生成。

2. DeepEncoder V2 的技术细节

DeepEncoder V2 的设计是为了在视觉编码阶段引入因果推理能力。其工作流包含三个关键组件:

2.1 视觉分词器 (Vision Tokenizer)

继承自 DeepEncoder,该组件由一个 80M 参数的 SAM-base 和两层卷积层组成。它负责将图像离散化,但在 V2 版本中,最终输出维度被调整为 896,以匹配后续架构。

2.2 类 LLM 视觉编码器与双流注意力

这是本次更新的核心。DeepSeek 将原有的 CLIP ViT 替换为 Qwen2-0.5B-base。在这个架构中,视觉 Token 和新增的「因果流查询」(Causal Flow Queries)被拼接处理,并应用了独特的双流注意力机制

为了控制信息流向,DeepSeek 设计了专门的注意力掩码(Attention Mask),如图 5 所示:

该注意力掩码矩阵M MM的数学定义如下(公式 1):

M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}_{m \times m} & \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = mM=[1m×m1n×m0m×nLowerTri(n)],wheren=m

  • 左侧区域 (1 m × m \mathbf{1}_{m \times m}1m×m):原始视觉 Token 采用双向注意力(Bidirectional),保留了类似 ViT 的全局建模能力,确保视觉特征的完整性。
  • 右侧区域 (LowerTri ( n ) \text{LowerTri}(n)LowerTri(n)):因果流查询 Token 采用下三角掩码(Causal/Triangular),即每个 Query 只能关注其之前的 Query 和所有的视觉 Token。

这种设计使得 Encoder 能够根据图像内容的语义逻辑动态地“重排”视觉信息,而非受限于空间位置。最终,只有经过语义重排的因果查询 Token 会被输入到解码器中。

整个模型的前向传播过程可形式化为(公式 2):

O = D ( Π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) O = D \left( \Pi_Q \left( T_L (E(I) \oplus Q_0; M) \right) \right)O=D(ΠQ(TL(E(I)Q0;M)))

其中,E ( I ) E(I)E(I)为视觉分词输出,Q 0 Q_0Q0为可学习查询,T L T_LTL为 Encoder 的 Transformer 层,M MM为上述掩码,Π Q \Pi_QΠQ表示仅提取后n nn个查询 Token,D DD为最终的语言解码器。

3. 数据效率与性能评估

DeepSeek-OCR 2 在保持极高压缩率的同时实现了性能突破。模型仅需256 到 1120 个视觉 Token即可覆盖复杂的文档页面。这一区间下限对应 1024x1024 分辨率的 Global View,上限对应 Gemini-3 Pro 的视觉 Token 预算,极大地降低了下游 LLM 的计算开销。

OmniDocBench v1.5评测中,DeepSeek-OCR 2 表现如下(表 1):

  • 综合得分:达到 91.09%,较基于 CLIP 的前代模型提升了 3.73%。
  • 阅读顺序(R-order):编辑距离(Edit Distance, ED)从 0.085 显著降至 0.057。

R-order 指标的显著优化,直接验证了 DeepEncoder V2 在视觉逻辑重排方面的有效性:模型不再是死板的复印机,而是具备了类似人类阅读的自然扫描逻辑。

4. 生产环境表现与局限

在实际应用场景中(在线 OCR 服务与 PDF 数据清洗),由于缺乏标准答案,团队采用“重复率”(Repetition Rate)作为质量代理指标。数据显示,DeepSeek-OCR 2 将在线用户日志图像的重复率从 6.25% 降低到了 4.17%,证明了其在长文本和复杂版面下的稳定性。

改进空间:
尽管整体性能优异,但在报纸类(Newspaper)文档上,DeepSeek-OCR 2 的文本识别编辑距离仍超过 0.13。团队分析认为,这是由于视觉 Token 上限(1120)对于极高密度的报纸文本仍显不足,且训练数据中报纸类样本相对匮乏(仅约 25万条)所致。

5. 总结

DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制,DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务,也为未来构建处理音频、视频等全模态(Omni-modal)数据的统一编码器提供了验证。

  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 论文全文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 23:15:59

企微API开发实战:外部群流量来源的“自动精准归因

QiWe开放平台 个人名片 API驱动企微自动化,让开发更高效 核心能力:为开发者提供标准化接口、快速集成工具,助力产品高效拓展功能场景 官方站点:https://www.qiweapi.com 团队定位:专注企微API生态的技术服务团队 对接…

作者头像 李华
网站建设 2026/4/18 15:14:29

为什么C语言执行效率高,运行快?

C 语言之所以执行效率高、运行速度快,主要源于它的设计哲学、语言特性以及编译执行流程与硬件的贴合度远高于大多数现代高级语言。下面从最核心的几个维度系统解释原因(基于 2026 年视角,这些结论在性能敏感领域如操作系统、嵌入式、游戏引擎…

作者头像 李华
网站建设 2026/4/18 4:22:22

学信网学历认证照片大小太大怎么办?照片格式怎么弄与压缩技巧

做学信网学历认证时,最让人头疼的莫过于照片上传环节。要么显示“照片太大无法上传”,要么提示“格式不符合要求”,反复调整却始终通不过审核,耽误认证进度。学信网学历认证照片有明确规范:蓝白背景,像素48…

作者头像 李华
网站建设 2026/4/15 19:00:12

【dz-1042】车内滞留儿童远程报警系统设计

车内滞留儿童远程报警系统设计 摘要 在汽车广泛普及的当下,车内滞留儿童引发的安全事故频发,密闭环境中温度骤变与 CO₂浓度升高对儿童生命安全构成严重威胁。由于儿童自救能力薄弱,传统依赖人工检查的方式易因疏忽导致悲剧,因此研…

作者头像 李华