12 天前

基于Transformer的文档理解方法

{William Hsu, Huichen Yang}
摘要

我们提出了一种基于Transformer的端到端框架TRDLU,用于文档版面理解(Document Layout Understanding, DLU)任务。DLU是实现文档结构自动理解的基础性任务,从多种格式的文档中准确检测内容区域并将其分类为具有语义意义的类别,仍是当前面临的开放性挑战。近年来,基于Transformer的检测神经网络在目标检测领域展现出优于传统基于卷积的方法的能力。本文将DLU视为一个检测任务,提出TRDLU框架,该框架融合了基于Transformer的视觉主干网络与Transformer编码器-解码器结构作为检测流水线。TRDLU仅依赖视觉特征,但其性能甚至优于多模态特征融合的模型。据我们所知,这是首个在DLU任务中采用完全基于Transformer的框架的研究所。我们在三个具有强大基线方法的DLU基准数据集上对TRDLU进行了评估,结果表明,TRDLU在所有数据集上均超越了当前最先进的方法。

基于Transformer的文档理解方法 | 最新论文 | HyperAI超神经