2 个月前
PP-StructureV2:一种更强大的文档分析系统
Chenxia Li; Ruoyu Guo; Jun Zhou; Mengtao An; Yuning Du; Lingfeng Zhu; Yi Liu; Xiaoguang Hu; Dianhai Yu

摘要
大量文档数据以非结构化形式存在,例如没有任何文本信息的原始图像。设计一个实用的文档图像分析系统是一项有意义但具有挑战性的任务。在先前的研究中,我们提出了一种智能文档分析系统PP-Structure。为了进一步提升PP-Structure的功能和性能,我们在本工作中提出了PP-StructureV2,该系统包含两个子系统:布局信息提取和关键信息提取。首先,我们集成了图像方向校正模块和布局恢复模块,以增强系统的功能。其次,在PP-StructureV2中采用了8种实用策略以提高性能。对于布局分析模型,我们引入了超轻量检测器PP-PicoDet和知识蒸馏算法FGD来实现模型轻量化,这使得推理速度提高了11倍,同时保持了相当的mAP(平均精度均值)。对于表格识别模型,我们分别利用PP-LCNet、CSP-PAN和SLAHead优化了骨干模块、特征融合模块和解码模块,这使得表格结构准确性提高了6%,同时保持了相当的推理速度。对于关键信息提取模型,我们引入了独立于视觉特征的LayoutXLM架构VI-LayoutXLM、TB-YX排序算法以及U-DML知识蒸馏算法,这些改进分别在语义实体识别和关系抽取任务的Hmean(调和平均数)上带来了2.8%和9.1%的提升。上述所有模型和代码均已开源,并托管在GitHub仓库PaddleOCR中。