
布局感知的预训练模型在文档图像问答任务中取得了显著进展。这类方法通过在现有的语言模型中引入额外的可学习模块,利用光学字符识别(OCR)工具获取的文本边界框坐标,捕捉文档图像中的布局信息。然而,这些额外模块需要在大规模文档图像上进行预训练,从而限制了其直接使用现成的指令微调语言基础模型(如Claude、ChatGPT)的能力。而这些基础模型近年来在零样本学习方面展现出巨大潜力。本文发现,诸如Claude和ChatGPT等指令微调语言模型能够通过空格和换行符理解文档的布局结构。基于这一观察,我们提出了一种名为布局与任务感知指令提示(LAyout and Task aware Instruction Prompt, LATIN-Prompt)的新方法。LATIN-Prompt由两部分组成:一是布局感知的文档内容,二是任务感知的指令。其中,前者通过合理使用空格和换行符,重构OCR提取出的文本片段之间的布局关系;后者则确保生成的回答符合特定的格式要求。此外,我们进一步提出了布局与任务感知指令微调(LAyout and Task aware Instruction Tuning, LATIN-Tuning),以提升小型指令微调模型(如Alpaca)在文档图像问答任务上的表现。实验结果表明,LATIN-Prompt使Claude和ChatGPT在零样本场景下的性能达到与当前最优方法(SOTA)微调后相当的水平;而LATIN-Tuning显著提升了Alpaca在零样本设置下的表现。例如,在DocVQA数据集上,LATIN-Prompt分别将Claude和ChatGPT的性能提升了263%和20%;LATIN-Tuning使Alpaca的性能提升了87.7%。定量与定性分析均验证了LATIN-Prompt和LATIN-Tuning的有效性。我们已在补充材料中提供代码,并将正式发布,以促进后续相关研究的发展。