HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek 开源新模型 DeepSeek-OCR:用图像压缩长文档,大幅降低大模型处理成本

DeepSeek 近期开源了一项突破性成果——DeepSeek-OCR,提出了一种创新的“上下文光学压缩”方法,旨在解决大语言模型在处理长文档时面临的高算力消耗与效率瓶颈问题。传统模型直接处理海量文本序列时,计算复杂度随长度呈指数增长,导致内存占用高、推理成本昂贵。为此,DeepSeek 团队借鉴人类阅读时依赖视觉感知快速捕捉文档结构的机制,尝试将文本内容转化为图像,再通过视觉模型高效压缩,最终以少量视觉特征驱动语言模型完成理解与生成。 该模型的核心架构由两部分构成:DeepEncoder(深度编码器)与基于混合专家(MoE)架构的 DeepSeek-3B-MoE-A570M 解码器。DeepEncoder 融合了 SAM(Segment Anything Model)与 CLIP 的优势,采用“先局部后全局”的分阶段处理策略。首先利用 SAM 的窗口注意力机制高效提取文档中的细粒度视觉特征,随后通过一个 16 倍下采样的卷积模块大幅压缩数据,再交由 CLIP 式的全局注意力网络捕捉整体布局与语义关联。这一设计显著降低了高分辨率图像处理中的内存压力与 token 数量爆炸问题。 解码端则借助 MoE 架构的强大表达能力,在保持模型规模可控的前提下,精准还原压缩后的视觉特征为原始文本。实验表明,在处理包含 600 至 1300 个文本 token 的英文文档时,DeepSeek-OCR 仅需 64 或 100 个视觉 token 即可完成任务。当压缩比低于 10 倍时,识别准确率稳定在 97% 以上;即便压缩至 20 倍,准确率仍维持在 60% 左右,展现出优异的信息保留能力。 在 OmniDocBench 等真实场景基准测试中,DeepSeek-OCR 表现优于 GOT-OCR2.0 和 MinerU2.0 等主流模型,以远少的视觉 token 实现相近甚至更优的性能,证明其在实际应用中的高效性与竞争力。更值得关注的是,该模型不仅支持标准文本识别,还能对图表、化学分子式、几何图形等复杂元素进行结构化解析,例如将图表转为表格、分子式转为 SMILES 格式,极大拓展了其在科研、金融、教育等专业领域的适用范围。 目前,DeepSeek 已将核心代码与模型权重全面开源。技术报告显示,在单张 A100-40G GPU 上,系统每日可处理超 20 万页文档,具备强大的生产部署潜力。 尽管如此,该技术仍存在局限:当压缩比超过 10 倍后,性能明显下降,可能源于信息丢失或细节模糊;复杂版面的解析能力仍有提升空间。此外,OCR 任务侧重感知与解码,而真实对话理解涉及长期记忆、上下文关联与推理,将对话历史光学化后能否有效保留关键信息,尚需通过“大海捞针”类测试验证。 未来,DeepSeek 计划探索数字文本与光学文本混合预训练,并评估长上下文检索的准确性。这一工作不仅是一款高效的 OCR 工具,更开创了视觉与语言深度融合的新范式——未来或可将对话历史、知识库动态渲染为视觉索引,以更低成本实现长上下文管理,为大模型的可扩展性提供全新路径。

الروابط ذات الصلة

DeepSeek 开源新模型 DeepSeek-OCR:用图像压缩长文档,大幅降低大模型处理成本 | القصص الشائعة | HyperAI