11 天前
DPText-DETR:基于Transformer中动态点的更优场景文本检测
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao

摘要
近年来,基于Transformer的方法在场景文本检测中广受关注,这类方法通过预测多边形顶点或贝塞尔曲线控制点来实现文本定位。然而,这些基于检测Transformer框架的方法由于采用粗粒度的位置查询建模,可能导致训练效率和性能均不理想。此外,以往研究中采用的点标注形式隐含了人类的阅读顺序,根据我们的观察,这种形式会削弱检测的鲁棒性。为应对上述挑战,本文提出一种简洁高效的动态点文本检测Transformer网络,命名为DPText-DETR。具体而言,DPText-DETR直接利用显式的点坐标生成位置查询,并以渐进式方式动态更新这些查询。为进一步增强Transformer中非局部自注意力机制的空间归纳偏置,我们设计了一种增强型分解自注意力模块(Enhanced Factorized Self-Attention),为每个实例内的点查询提供环形结构引导。此外,我们提出一种简单而有效的新型位置标注形式,以缓解原有标注方式带来的副作用。为进一步评估不同标注形式在真实场景下对检测鲁棒性的影响,我们构建了一个名为Inverse-Text的测试集,包含500张人工标注的图像。大量实验结果表明,所提方法在主流基准数据集上具备高效的训练效率、优异的鲁棒性以及领先的检测性能。代码及Inverse-Text测试集已开源,地址为:https://github.com/ymy-k/DPText-DETR。