11 天前

VSR:一种融合视觉、语义与关系的文档版面分析统一框架

Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu
VSR:一种融合视觉、语义与关系的文档版面分析统一框架
摘要

文档版面分析对于理解文档结构至关重要。在该任务中,文档的视觉特征与语义信息,以及版面组件之间的相互关系,共同促进了对文档结构的理解。尽管已有大量研究致力于利用上述信息,但现有方法仍存在性能不足的问题。基于自然语言处理(NLP)的方法将版面分析建模为序列标注任务,但在建模版面结构方面能力有限;基于计算机视觉(CV)的方法则将其视为检测或分割任务,但普遍存在模态融合效率低下以及缺乏对版面组件间关系建模的缺陷。为解决上述问题,本文提出一种统一的框架VSR(Vision-Semantics-Relation),用于文档版面分析,该框架融合了视觉、语义与组件间关系信息。VSR能够兼容基于NLP与基于CV的多种方法。具体而言,首先通过文档图像引入视觉信息,通过文本嵌入图(text embedding maps)引入语义信息;随后,采用双流网络分别提取具有模态特性的视觉与语义特征,并通过自适应融合机制充分挖掘二者之间的互补信息;最后,在给定候选组件的基础上,引入基于图神经网络(Graph Neural Network, GNN)的关系建模模块,以捕捉组件间的复杂关系,并输出最终的版面分析结果。在三个主流基准数据集上的实验结果表明,VSR显著优于现有模型。相关代码即将开源。

VSR:一种融合视觉、语义与关系的文档版面分析统一框架 | 最新论文 | HyperAI超神经