Command Palette
Search for a command to run...
Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

摘要
文档图像解析因其包含文本段落、图表、公式和表格等复杂交织的元素而极具挑战性。现有方法要么采用专门的专家模型进行组装,要么直接以自回归方式生成页面级内容,尽管性能尚可,但仍面临集成开销大、效率瓶颈以及版面结构退化等问题。为解决上述局限,我们提出了一种新型多模态文档图像解析模型——Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting),该模型遵循“分析-解析”范式。在第一阶段,Dolphin 按阅读顺序生成一系列版面元素;这些异构元素作为锚点,并结合特定任务提示,被反馈至 Dolphin 以在第二阶段实现并行的内容解析。为训练 Dolphin,我们构建了一个包含超过3000万样本的大规模数据集,覆盖多粒度解析任务。在主流基准与自建基准上的全面评估表明,Dolphin 在多种页面级与元素级设置下均达到了当前最优性能,同时凭借其轻量化架构和并行解析机制,实现了卓越的效率。代码与预训练模型已公开发布于以下网址:[https://url]。
代码仓库
bytedance/dolphin
官方
pytorch
GitHub 中提及