7 天前

LAPDoc:面向文档的布局感知提示方法

Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic
LAPDoc:面向文档的布局感知提示方法
摘要

近年来,利用海量纯文本数据训练大规模语言模型(LLMs)取得了显著进展,这类模型在多个领域和任务中展现出强大的泛化能力,包括针对特定文档的任务。与此相对,当前另一趋势是开发专为文档理解设计的多模态Transformer架构,其核心目标是将文本输入与相应的文档版面布局信息进行深度融合。然而,这类多模态模型通常需要额外的微调步骤,且依赖于专门的训练数据。目前,尚缺乏在泛化能力上可与纯文本LLMs相媲美的文档专用Transformer模型。这一现状引发了关键问题:在处理文档理解任务时,究竟应优先选择纯文本LLMs还是多模态文档Transformer?本文探讨了仅使用纯文本LLMs完成特定文档任务的可行性,其核心方法是通过“版面信息增强”(layout enrichment)来提升模型对文档结构的理解能力。我们研究了即插即用的修改方式以及基于规则的方法,用于将版面信息融入纯文本LLM的提示(prompt)中。在实验中,我们评估了该方法在商用模型ChatGPT与开源模型Solar上的表现。结果表明,采用我们的方法后,两类LLMs在多个标准文档理解基准测试中均实现了性能提升。此外,我们还系统分析了光学字符识别(OCR)噪声、版面信息错误对模型性能的影响,以及LLMs在利用文档布局信息方面的固有局限性。实验结果表明,相较于仅依赖原始文档文本,通过版面信息增强可使纯文本LLMs在文档理解任务中的性能提升最高达15%。综上所述,本研究建议在选择模型时,应将纯文本LLMs结合版面信息增强的方法纳入考量,作为与多模态文档Transformer相比更具竞争力的替代方案。

LAPDoc:面向文档的布局感知提示方法 | 最新论文 | HyperAI超神经