8 天前
SwinTextSpotter:通过文本检测与文本识别之间更优的协同作用实现场景文本检测
Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin

摘要
近年来,端到端场景文本定位(scene text spotting)因成功挖掘文本检测与识别任务之间的内在协同关系而受到广泛关注。然而,当前最先进的方法通常仅通过共享主干网络来融合检测与识别,未能直接利用两项任务之间的特征交互优势。为此,本文提出一种新型端到端场景文本定位框架——SwinTextSpotter。该框架采用基于动态头(dynamic head)的Transformer编码器作为检测器,并引入一种新颖的“识别转换”(Recognition Conversion)机制,通过识别损失显式引导文本定位,从而实现检测与识别任务的统一建模。该设计简洁高效,无需额外的文本校正模块,也无需字符级标注即可处理任意形状文本。在多方向文本数据集RoIC13和ICDAR 2015、任意形状文本数据集Total-Text和CTW1500,以及多语言数据集ReCTS(中文)和VinText(越南语)上的定性与定量实验表明,SwinTextSpotter显著优于现有方法。代码已开源,地址为:https://github.com/mxin262/SwinTextSpotter。