Command Palette

Search for a command to run...

16 天前

DeepSeek-OCR:上下文光学压缩

Haoran Wei Yaofeng Sun Yukun Li

DeepSeek-OCR:上下文光学压缩

摘要

我们提出 DeepSeek-OCR,作为通过二维光学映射压缩长上下文可行性的一项初步探索。DeepSeek-OCR 由两部分组成:DeepEncoder 作为编码器,以及 DeepSeek3B-MoE-A570M 作为解码器。其中,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持较低的激活水平,同时实现较高的压缩比,从而确保视觉 token 数量处于最优且可管理的范围。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩比小于 10×)时,模型可达到 97% 的解码(OCR)精度;即使在 20× 的压缩比下,OCR 准确率仍可维持在约 60%。这一结果为历史文档长上下文压缩、大语言模型中的记忆遗忘机制等研究方向展现出显著潜力。此外,DeepSeek-OCR 还展现出极高的实际应用价值:在 OmniDocBench 基准测试中,仅使用 100 个视觉 token 即超越了 GOT-OCR2.0(256 token/页)的性能,同时在平均每页超过 6000 个 token 的 MinerU2.0 基准上,仅用不到 800 个视觉 token 即实现更优表现。在实际生产环境中,DeepSeek-OCR 可实现每日生成超过 20 万页的 LLM/VLM 训练数据(单张 A100-40G 显卡)。代码与模型权重已公开,访问地址为:http://github.com/deepseek-ai/DeepSeek-OCR。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供