
摘要
多模态学习的出现显著提升了文档人工智能的性能。如今,文档被视为包含文本和视觉信息的多模态实体,用于下游分析。然而,这一领域的研究通常侧重于文本方面,将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像,但这些方法在推理过程中仍需要OCR识别的文本作为输入,或者在学习过程中未能与文本对齐。因此,我们提出了一种专门设计的新颖图像-文本对齐技术,旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA(Document Pre-trained Transformer with Alignment)通过这种技术训练,在多种文档图像理解任务中表现出色,且在推理过程中无需依赖OCR。结合辅助重建目标,DoPTA在使用显著较少的预训练计算资源的情况下,始终优于更大的模型。此外,DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。