Command Palette

Search for a command to run...

20 天前

海豚:基于异构锚点提示的文档图像解析

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

海豚:基于异构锚点提示的文档图像解析

摘要

文档图像解析因其包含文本段落、图表、公式和表格等复杂交织的元素而极具挑战性。现有方法要么采用专门的专家模型进行组装,要么直接以自回归方式生成页面级内容,尽管性能尚可,但仍面临集成开销大、效率瓶颈以及版面结构退化等问题。为解决上述局限,我们提出了一种新型多模态文档图像解析模型——Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting),该模型遵循“分析-解析”范式。在第一阶段,Dolphin 按阅读顺序生成一系列版面元素;这些异构元素作为锚点,并结合特定任务提示,被反馈至 Dolphin 以在第二阶段实现并行的内容解析。为训练 Dolphin,我们构建了一个包含超过3000万样本的大规模数据集,覆盖多粒度解析任务。在主流基准与自建基准上的全面评估表明,Dolphin 在多种页面级与元素级设置下均达到了当前最优性能,同时凭借其轻量化架构和并行解析机制,实现了卓越的效率。代码与预训练模型已公开发布于以下网址:[https://url]。

代码仓库

bytedance/dolphin
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供