DeepSeek开源新突破:将长文档压缩为图片,大幅降低大模型处理成本
DeepSeek近日开源了一项突破性成果——DeepSeek-OCR,提出一种名为“上下文光学压缩”的新方法,旨在解决大语言模型处理长文档时算力消耗高、效率低的难题。该模型通过将长文本内容渲染为图像,再利用视觉模型进行高效压缩,大幅降低输入给语言模型的token数量,从而显著提升处理效率。 传统大模型在处理数千甚至上万字的文档时,面临计算资源和内存压力。DeepSeek-OCR的创新思路是模拟人类阅读时的视觉感知机制:先将文档转为高分辨率图像,再通过视觉编码器提取关键结构信息,压缩成少量视觉token,最后由语言模型“解压”还原为文本。这不仅是一种OCR工具,更可视为为大模型量身打造的“视觉预处理器”。 其核心架构由两部分组成:DeepEncoder(深度编码器)和DeepSeek-3B-MoE-A570M解码器。DeepEncoder融合了SAM(擅长局部细节)和CLIP(擅长全局语义)两种视觉模型,通过16倍下采样卷积模块连接,实现“先分后总”的高效处理。该设计有效缓解了高分辨率图像带来的内存与token爆炸问题。解码器则采用混合专家(MoE)结构,以5.7亿激活参数实现强表达能力,精准还原压缩后的文本。 在Fox和OmniDocBench等基准测试中,DeepSeek-OCR表现优异。在600至1300个文本token的英文文档上,仅用64至100个视觉token即可完成处理。当压缩比低于10倍时,识别准确率保持在97%以上;即使压缩至20倍,准确率仍达60%。在OmniDocBench测试中,其性能超越GOT-OCR2.0和MinerU2.0等模型,且使用token更少。 更值得一提的是,DeepSeek-OCR具备深度解析能力,能识别并结构化图表、化学分子式、几何图形等复杂内容,输出为表格、SMILES格式或线段关系,拓展了在金融、科研、教育等专业场景的应用潜力。 目前,DeepSeek已将代码与模型权重开源。据技术报告,单张A100-40G GPU每日可处理超20万页文档。尽管该模型在压缩比超过10倍后性能下降,且对极端复杂版面仍存局限,但其为视觉与语言模态融合提供了全新范式。 未来,DeepSeek计划探索将对话历史或知识库以图像形式压缩,以提升长上下文管理与检索效率。这一工作不仅推动了OCR技术发展,更可能为大模型处理长文本、长对话、大规模知识库提供新路径。
