HyperAIHyperAI

Command Palette

Search for a command to run...

DoPTA:利用补丁文本对齐改进文档布局分析

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

摘要

多模态学习的出现显著提升了文档人工智能的性能。如今,文档被视为包含文本和视觉信息的多模态实体,用于下游分析。然而,这一领域的研究通常侧重于文本方面,将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像,但这些方法在推理过程中仍需要OCR识别的文本作为输入,或者在学习过程中未能与文本对齐。因此,我们提出了一种专门设计的新颖图像-文本对齐技术,旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA(Document Pre-trained Transformer with Alignment)通过这种技术训练,在多种文档图像理解任务中表现出色,且在推理过程中无需依赖OCR。结合辅助重建目标,DoPTA在使用显著较少的预训练计算资源的情况下,始终优于更大的模型。此外,DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供