
摘要
近年来,场景文本检测取得了显著进展。检测方法从轴对齐矩形发展到旋转矩形,进而演变为四边形。然而,当前的数据集中包含的曲线文本非常少,而这类文本在实际场景图像中(如招牌、产品名称等)却广泛存在。为了引起对野外曲线文本识别的关注,本文构建了一个名为CTW1500的曲线文本数据集,该数据集包括1,500张图像中的超过1万条文本注释(其中1,000张用于训练,500张用于测试)。基于这一数据集,我们首次提出了一种基于多边形的曲线文本检测器(CTD),该检测器可以直接检测曲线文本而无需经验组合。此外,通过无缝集成递归横向和纵向偏移连接(TLOC),所提出的方法可以端到端地训练以学习位置偏移之间的内在联系。这使得CTD能够探索上下文信息而不是独立预测点,从而实现更平滑和准确的检测。我们还提出了两种简单但有效的后处理方法——非多边形抑制(NPS)和多边形非极大值抑制(PNMS),以进一步提高检测精度。此外,本文提出的方法设计为通用形式,可以在没有额外努力的情况下使用矩形或四边形边界框进行训练。实验结果表明,在仅使用轻量级主干网络的情况下,我们的方法在CTW-1500数据集上大幅超越了现有最先进方法。即使仅在曲线或非曲线子集上进行评估,CTD + TLOC仍能取得最佳结果。代码已发布在https://github.com/Yuliang-Liu/Curve-Text-Detector。