DeepSeek开源新成果了!把长文档“压缩”成图片,降低大模型长文本处理成本
创始人
2025-10-20 20:16:09
0

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。

(来源:GitHub)

我们知道,大语言模型在处理几千字、几万字甚至更长的文本时,计算量会急剧增加,对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。

图丨流行视觉语言模型中的典型视觉编码器(来源:GitHub)

DeepSeek-OCR 的思路,就是想绕开这个难题。DeepSeek 团队指出,人类在阅读文档时,视觉系统扮演了至关重要的角色,能够快速捕捉和压缩页面布局、段落结构等信息。那么,机器是否也能模拟这一过程?DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是,能不能不直接把长长的文字序列喂给语言模型?而是先把这些文字内容渲染成一张图片,然后利用高效的视觉模型对这张图片进行压缩和理解,最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此,它不只是个 OCR 工具,更像是一个为大模型打造的“视觉预处理器”,一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成:DeepEncoder(深度编码器)和 DeepSeek-3B-MoE-A570M(一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型)解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目的,DeepEncoder 融合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成了编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

两者之间,通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后,首先由 SAM 高效地处理海量、分散的视觉特征,然后这些特征在进入计算成本高昂的全局注意力网络之前,被大幅压缩。这一“先分后总、先粗后精”的设计,有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。

图丨 DeepSeek-OCR 的架构(来源:GitHub)

而解码端则采用了 DeepSeek 自家的混合专家(Mixture-of-Experts, MoE)架构。MoE 模型通过将任务分发给不同的专家网络,能够在保持模型整体规模可控的前提下,实现强大的表达能力。在 DeepSeek-OCR 中,这个拥有约 5.7 亿激活参数的解码器,负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中,DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示,当压缩比(原始文本 token 数与所用视觉 token 数的比值)低于 10 倍时,模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下,准确率也依然能维持在 60% 左右。

(来源:GitHub)

在更侧重实际应用场景的 OmniDocBench 测试中,DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0(平均每页使用 256 个 token)和 MinerU2.0(平均每页使用超过 6000 个 token)等其他端到端模型,DeepSeek-OCR 在使用更少视觉 token 的情况下,整体性能达到了业界先进水平。

除了文本识别性能,DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为 SMILES 格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是,DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源,据其技术报告披露,在生产环境中,单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然,作为一项探索性的工作,DeepSeek-OCR 目前也存在一些局限。报告指出,当压缩比超过 10 倍后,模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多,或是低分辨率图像导致文本细节模糊。此外,虽然模型展现了对多种元素的解析能力,但在处理一些极端复杂的版面时,其性能仍有提升空间。

而且,OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标,但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力,后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立,而对话的轮次间存在强依赖关系。将对话历史光学化后,模型能否依然保持对早期关键信息的有效检索,需要专门的“大海捞针”(needle-in-a-haystack)测试来验证。技术报告坦言,他们计划在未来进行数字文本与光学文本交错的预训练实验,以及长上下文检索准确性评估。

不过,DeepSeek-OCR 仍然是一个具有相当重要价值的工作,除了是一款性能出色的 OCR 工具,它还为视觉与语言两种模态的深度融合提供了新的思路。过去,视觉和语言通常被作为独立的输入源来处理,而 DeepSeek-OCR 的实践表明,两者或许可以互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话的历史记录动态渲染成图像,以期用更低的成本管理更长的对话历史。同样,海量知识库也有可能被压缩成一系列紧凑的视觉索引,以提升模型的知识检索效率。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版:何晨龙

相关内容

阿里夸克秘密开展“C计划”...
阿里夸克内部正推进一项代号为“C计划”的AI业务,该计划由夸克核心...
2025-10-20 21:17:03
DeepSeek开源新成果...
DeepSeek 开源新成果了。 这次他们发布了一个名为 Deep...
2025-10-20 20:16:09
刚刚,DeepSeek开源...
Datawhale干货 最新发布:DeepSeek,编译:机器之...
2025-10-20 19:49:07
DeepSeek团队开源新...
10月20日,DeepSeek-AI 团队发布《DeepSeek-...
2025-10-20 19:19:42
中科曙光总裁历军:VR+A...
10月19日,“2025世界VR产业大会”在江西南昌开幕。会上,中...
2025-10-20 15:18:15
宁德时代+达卯科技 布局“...
中国能源报消息,上海达卯科技有限公司(简称“达卯科技”)近日宣布完...
2025-10-20 12:46:17

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...