2 个月前

LayoutReader:文本和布局预训练以检测阅读顺序

Zilong Wang; Yiheng Xu; Lei Cui; Jingbo Shang; Furu Wei
LayoutReader:文本和布局预训练以检测阅读顺序
摘要

阅读顺序检测是理解视觉丰富文档(如收据和表单)的基础。不幸的是,由于标注足够大的数据集过于繁琐,目前尚无任何研究利用先进的深度学习模型来解决这一问题。我们观察到,WORD文档的XML元数据中嵌入了其阅读顺序;同时,将WORD文档转换为PDF或图像也非常容易。因此,我们以自动化的方式构建了ReadingBank,这是一个包含50万份文档图像的基准数据集,涵盖了广泛的文档类型,并包含了阅读顺序、文本和布局信息。这是首个大规模的数据集,能够释放深度神经网络在阅读顺序检测方面的潜力。具体而言,我们提出的LayoutReader模型利用seq2seq模型捕捉文本和布局信息来进行阅读顺序预测。在我们的实验中,该模型在阅读顺序检测方面表现几乎完美,并显著提升了开源和商业OCR引擎在结果中的文本行排序性能。我们将通过网址https://aka.ms/layoutreader发布该数据集和模型。

LayoutReader:文本和布局预训练以检测阅读顺序 | 最新论文 | HyperAI超神经