Command Palette
Search for a command to run...
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
Hejun Dong Junbo Niu Bin Wang Weijun Zeng Wentao Zhang Conghui He
摘要
光学字符识别(OCR)技术已从行级转录演进为结构化文档解析,要求模型能够恢复包含版面布局、表格及公式的长序列内容。尽管视觉 - 语言模型近期取得了显著进展,但现有系统大多依赖自回归解码(autoregressive decoding),这不仅引入了顺序延迟,还加剧了长文档中的误差传播问题。本文从逆向渲染(inverse rendering)的视角重新审视文档 OCR 任务,论证了从左至右的因果生成机制实为序列化过程的产物,而非任务本身的固有属性。基于这一洞察,我们提出了 MinerU-Diffusion,这是一种统一的基于扩散(diffusion)的框架,通过在视觉条件(visual conditioning)下采用并行扩散去噪(parallel diffusion denoising)替代自回归顺序解码。MinerU-Diffusion 引入了分块扩散解码器(block-wise diffusion decoder)以及由不确定性驱动的课程学习策略(uncertainty-driven curriculum learning strategy),从而实现了稳定的训练与高效的长序列推理。大量实验表明,相较于自回归基线模型,MinerU-Diffusion 在显著提升鲁棒性的同时,解码速度最高提升了 3.2 倍。此外,在提出的 Semantic Shuffle 基准测试上的评估结果进一步证实,该模型降低了对语言先验(linguistic priors)的依赖,并展现出更强的视觉 OCR 能力。
一句话总结
上海人工智能实验室与北京大学的研究人员提出了 MinerU-Diffusion,这是一个统一的扩散框架,它用分块并行去噪替代自回归解码,在复杂文档 OCR 任务中将推理速度提升高达 3.2 倍,同时减少了语义幻觉。
主要贡献
- 本文介绍了 MinerU-Diffusion,这是一个统一框架,通过将自回归顺序解码替换为视觉条件下的并行扩散去噪,将文档 OCR 重新表述为逆渲染问题。
- 采用分块扩散解码器结合不确定性驱动的课程学习策略,实现了长文档序列的稳定训练和高效推理,同时减轻了误差传播。
- 在 Semantic Shuffle 基准测试和全文解析任务上的实验表明,该方法比自回归基线实现了高达 3.2 倍的解码加速,同时降低了对语言先验的依赖,并提高了对语义扰动的鲁棒性。
引言
文档 OCR 已转向能够解析复杂布局、表格和公式的视觉 - 语言模型,但现有系统依赖自回归解码,这导致了顺序延迟,并在长文档中放大了误差传播。这些自回归方法还迫使模型严重依赖语言先验,导致在视觉信号微弱或文档结构受损时出现语义幻觉。作者利用逆渲染视角引入了 MinerU-Diffusion,这是一个统一的框架,用视觉条件下的并行扩散去噪替代了顺序生成。通过采用分块扩散解码器和不确定性驱动的课程学习策略,该方法实现了高达 3.2 倍的解码加速,同时显著提高了鲁棒性,并减少了对用于文本重建的语言模型的依赖。
数据集
-
数据集构成与来源:作者构建了一个名为 Dbase(文中也称为 Dhasℓ)的大规模、多样化基础数据集,该数据集完全源自 MinerU2.5 数据集。该集合包含约 750 万个样本,专注于中英文文档解析任务,未针对低资源语言进行专门的评估。
-
子集的关键细节:数据经过精心策划,以满足覆盖多样化布局、语言、文档类型和视觉风格的高熵分布 pdiv(x)。尽管数据集中存在适度的标注噪声,但其巨大的规模和多样性旨在支持稳健的跨域泛化和稳定的特征学习。
-
在模型训练中的使用:在第一阶段,作者使用 Dbase 进行多样性驱动的基础学习,以建立稳健的表示和通用的解析能力。在该数据集上的训练产生了平滑的损失景观,促进了稳定的收敛,并强调了跨多个文档理解任务的广泛视觉 - 语义对齐。
-
处理与策划:该数据集是通过数据策划和自动化标注细化过程构建的。在这一初始阶段,作者优先考虑多样性和平衡性,而非完美的标注质量,以确保模型能够从广泛的文档结构中学习稳定的特征。
方法
作者将文档 OCR 建模为统一结构化令牌序列的逆渲染,其中输出 y 在共享词汇表 V 中涵盖文本符号、布局标记、表格分隔符和数学运算符。这种统一表示允许在单个顺序接口内对段落、表格和公式等异构文档元素进行编码。尽管被序列化为一个一维序列,但其底层结构是二维的,统计依赖性主要源于空间排列而非内在的因果生成顺序。因此,作者将 OCR 输出框架化为空间耦合的离散随机场。请参阅框架图,了解模型如何将 2D 文档图像映射为 1D 令牌序列,以便通过自回归和基于扩散的方法进行解码。与施加固定因果顺序的自回归解码不同,基于扩散的方法引入了离散扩散过程,从而在视觉条件下实现全局迭代细化。
为了解决全注意力扩散在长文档上的计算和结构限制,作者提出了 MinerU-Diffusion,这是一种块注意力 dVLM。输出序列被划分为 B 个连续块,对条件后验进行分解,以允许在块内进行并行扩散细化,同时在块之间保留粗略的自回归结构。这种混合分解防止了长距离对齐漂移,同时保持了并行效率。请参阅训练图,该图说明了目标令牌序列如何被随机掩码以形成部分可观察的输入,以及模型如何在视觉和提示条件下仅预测掩码位置。应用了结构化注意力掩码,其中令牌在每个块内双向关注,并因果性地关注所有前驱块,将复杂度从 O(L2) 降低到 O(BL′2)。
训练过程采用两阶段课程学习框架,以利用大规模异构数据并缓解由噪声标签引起的性能瓶颈。在第一阶段,模型在较简单的数据子集上进行大规模 OCR 适应,以建立基础结构理解。第二阶段引入了不确定性驱动的边界细化,通过推理一致性识别困难样本,并通过 AI 辅助的人工标注流水线进行处理以获得高精度标签。模型在布局解码示例中展示了其迭代细化能力,模型逐步解码掩码以揭示最终的结构化文本和布局标签。同样,公式识别示例显示模型通过多个扩散步骤生成复杂的 LaTeX 表达式,将输出从初始掩码细化为最终的数学符号。
实验
- 在 OmniDocBench 上的全文解析实验验证了 MinerU-Diffusion 在没有神谕布局信息的情况下实现了强大的端到端性能,尽管当布局预测不完美时仍存在性能差距,这凸显了布局理解是主要瓶颈。
- 表格和公式识别评估表明,该模型保持了结构完整性,并在与自回归基线的竞争中具有竞争力,特别是在扩散解码过程中保持表格结构方面表现突出。
- 对置信度阈值和解码并行性的分析揭示了一种可控的权衡:较低的阈值显著提高了推理吞吐量,而较高的阈值提高了结构一致性和准确性,并确定了一个特定的阈值作为最佳平衡点。
- 解码策略的比较表明,动态调度通过自适应选择令牌来减少误差累积,同时比固定步长方法保持更高的效率,从而优于静态方法。
- 关于注意力机制的消融研究证实,与全注意力(Full-Attn)相比,块注意力(Block-Attn)通过降低内存成本和防止长序列中常见的重复生成伪影,提供了更优越的可扩展性和稳定性。
- 课程学习实验验证了两阶段训练框架有效地稳定了优化并细化了边界,在没有真实布局的具有挑战性的设置中,显著优于单阶段方法。
- Semantic Shuffle 基准测试结果指出,基于扩散的解码比自回归模型更直接地依赖视觉信号,后者在语义连贯性被移除时往往会急剧下降,这表明其对语言先验具有更强的鲁棒性。