HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-OCR: Dokumente als Bilder komprimieren, um KI-Kosten zu senken

DeepSeek近期开源了名为DeepSeek-OCR的新模型,提出一种创新的“上下文光学压缩”方法,旨在解决大语言模型处理长文档时面临的高算力消耗与内存瓶颈问题。传统模型直接处理长文本序列时,token数量呈线性增长,导致计算成本急剧上升。为此,DeepSeek团队受人类视觉阅读机制启发,设计了一套将文本内容先渲染为图像、再通过视觉模型高效压缩的全新范式。该模型并非传统OCR工具,而是一个专为大模型优化的“视觉预处理器”,能将数以千计的文本token压缩为仅几十个视觉token,显著降低后续语言模型的处理负担。 其核心架构由两部分构成:DeepEncoder(深度编码器)与基于MoE架构的DeepSeek-3B-MoE-A570M解码器。DeepEncoder融合了SAM(窗口注意力)与CLIP(全局注意力)的优势,采用“先分后总”的策略——先由SAM高效提取局部细节特征,再通过16倍下采样的卷积模块大幅压缩数据,最后输入全局注意力网络,有效缓解高分辨率图像带来的内存压力。这一设计使模型在保持高精度的同时,实现高达20倍的压缩比。解码端则利用MoE模型强大的表达能力,将压缩后的视觉特征还原为准确的文本序列。 在Fox与OmniDocBench等基准测试中,DeepSeek-OCR表现出色:在压缩比低于10倍时,文本识别准确率维持在97%以上;即便压缩至20倍,准确率仍达60%。相比GOT-OCR2.0(每页256 token)和MinerU2.0(超6000 token),其以极低视觉token数实现业界领先性能。更值得一提的是,模型具备深度解析能力,可识别图表并转为表格、解析化学分子式为SMILES格式、理解几何图形结构,适用于金融报告、科研文献等复杂场景。 目前,DeepSeek已将模型权重与核心代码开源,并披露在单张A100-40G GPU上每日可处理超20万页文档,展现出强大的工业级部署潜力。然而,研究也指出其局限性:压缩比超过10倍后性能下降,可能源于布局信息丢失或细节模糊;复杂版面处理仍有优化空间;更重要的是,该范式尚无法直接迁移至多轮对话场景——对话依赖上下文强关联,而光学压缩可能削弱关键信息的可检索性,需进一步通过“大海捞针”测试验证。 尽管如此,DeepSeek-OCR标志着视觉与语言模态深度融合的新方向。它首次证明视觉可作为语言信息的高效压缩媒介,未来或可用于动态渲染对话历史图像以降低上下文成本,或将知识库压缩为视觉索引提升检索效率。这一探索为构建更高效、更可持续的大模型系统提供了极具启发性的技术路径。 (评价补充:业内专家认为,该工作在“视觉压缩语言信息”方向上迈出关键一步,虽尚处早期阶段,但其架构设计极具可扩展性。DeepSeek作为中国AI领域新兴力量,持续推动开源生态建设,其MoE与多模态融合策略已展现出与国际顶尖模型比肩的技术潜力。)

Verwandte Links