4 个月前

计算机视觉

自然语言处理

计算机视觉

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

摘要

文档图像解析因其包含文本段落、图表、公式和表格等复杂交织的元素而极具挑战性。现有方法要么采用专门的专家模型进行组装，要么直接以自回归方式生成页面级内容，尽管性能尚可，但仍面临集成开销大、效率瓶颈以及版面结构退化等问题。为解决上述局限，我们提出了一种新型多模态文档图像解析模型——Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting），该模型遵循“分析-解析”范式。在第一阶段，Dolphin 按阅读顺序生成一系列版面元素；这些异构元素作为锚点，并结合特定任务提示，被反馈至 Dolphin 以在第二阶段实现并行的内容解析。为训练 Dolphin，我们构建了一个包含超过3000万样本的大规模数据集，覆盖多粒度解析任务。在主流基准与自建基准上的全面评估表明，Dolphin 在多种页面级与元素级设置下均达到了当前最优性能，同时凭借其轻量化架构和并行解析机制，实现了卓越的效率。代码与预训练模型已公开发布于以下网址：[https://url]。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

计算机视觉

自然语言处理

计算机视觉

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

摘要

文档图像解析因其包含文本段落、图表、公式和表格等复杂交织的元素而极具挑战性。现有方法要么采用专门的专家模型进行组装，要么直接以自回归方式生成页面级内容，尽管性能尚可，但仍面临集成开销大、效率瓶颈以及版面结构退化等问题。为解决上述局限，我们提出了一种新型多模态文档图像解析模型——Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting），该模型遵循“分析-解析”范式。在第一阶段，Dolphin 按阅读顺序生成一系列版面元素；这些异构元素作为锚点，并结合特定任务提示，被反馈至 Dolphin 以在第二阶段实现并行的内容解析。为训练 Dolphin，我们构建了一个包含超过3000万样本的大规模数据集，覆盖多粒度解析任务。在主流基准与自建基准上的全面评估表明，Dolphin 在多种页面级与元素级设置下均达到了当前最优性能，同时凭借其轻量化架构和并行解析机制，实现了卓越的效率。代码与预训练模型已公开发布于以下网址：[https://url]。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供