2 个月前
弥合DETR与R-CNN在文档图像中图形对象检测性能的差距
Shehzadi, Tahira ; Hashmi, Khurram Azeem ; Stricker, Didier ; Liwicki, Marcus ; Afzal, Muhammad Zeshan

摘要
本文在弥合DETR与R-CNN在图形对象检测性能上的差距方面迈出了重要一步。现有的图形对象检测方法受益于基于卷积神经网络(CNN)的对象检测技术的最新改进,取得了显著进展。最近,基于Transformer的检测器大幅提升了通用对象检测的性能,消除了对手工设计特征或诸如非极大值抑制(Non-Maximum Suppression, NMS)等后处理步骤的需求,通过使用对象查询实现这一目标。然而,这些增强的基于Transformer的检测算法在图形对象检测问题上的有效性尚未得到验证。受DETR最新进展的启发,我们对现有的检测Transformer进行了少量修改,应用于图形对象检测。我们以不同的方式修改了对象查询,包括使用点、锚框以及向锚框添加正负噪声,以提升性能。这些修改使得模型能够更好地处理不同大小和长宽比的对象,提高对对象位置和大小微小变化的鲁棒性,并改善图像中对象与非对象之间的区分能力。我们在四个图形数据集上评估了我们的方法:PubTables、TableBank、NTable和PubLaynet。通过在DETR中集成查询修改,我们在这些数据集上超越了先前的工作,并分别在TableBank、PubLaynet和PubTables上实现了96.9%、95.7%和99.3%的平均精度均值(mAP)。广泛的消融实验结果表明,基于Transformer的方法在文档分析中的效果类似于其他应用领域。我们希望这项研究能够吸引更多关注到使用检测Transformer进行文档图像分析的研究中来。