8 天前
Mask TextSpotter v3:面向鲁棒场景文本检测的分割提议网络
Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai

摘要
近年来,端到端可训练的场景文本检测与识别方法在融合检测与识别任务方面取得了显著进展。然而,当前大多数任意形状场景文本检测器仍依赖区域提议网络(Region Proposal Network, RPN)生成候选区域。RPN高度依赖人工设计的锚框(anchors),且其提议区域采用轴对齐矩形表示。前者在处理极端长宽比或不规则形状的文本实例时面临困难,后者在密集排列或倾斜文本场景下,常将多个相邻文本实例合并至单一提议区域中,导致检测性能下降。为解决上述问题,本文提出 Mask TextSpotter v3,一种端到端可训练的场景文本检测与识别框架,其核心创新在于用无锚框的分割提议网络(Segmentation Proposal Network, SPN)替代传统的 RPN。SPN 不依赖预设锚框,能够对任意形状的文本区域进行精确建模,从而在检测极端长宽比或不规则形状文本实例方面显著优于传统 RPN。此外,SPN 生成的高精度提议区域使得可利用掩码(masked)的 RoI 特征实现相邻文本实例的有效解耦,显著提升识别鲁棒性。因此,Mask TextSpotter v3 能够有效处理极端长宽比和不规则形状的文本实例,且其识别精度不受邻近文本或背景噪声的干扰。实验结果表明,在旋转鲁棒性方面,相较于当前最优方法,我们在 Rotated ICDAR 2013 数据集上提升 21.9%;在形状鲁棒性方面,于 Total-Text 数据集上提升 5.9%;在长宽比鲁棒性方面,达到 MSRA-TD500 数据集上的最先进水平。代码已开源,地址为:https://github.com/MhLiao/MaskTextSpotterV3