8 天前

MANGO:一种基于掩码注意力引导的单阶段场景文本检测器

Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu
MANGO:一种基于掩码注意力引导的单阶段场景文本检测器
摘要

近年来,由于具备全局优化能力和在实际应用中较高的可维护性,端到端场景文本检测与识别(end-to-end scene text spotting)成为研究热点。大多数现有方法致力于设计多种感兴趣区域(Region of Interest, RoI)操作,将检测模块与序列识别模块整合为两阶段文本检测框架。然而,在此类框架中,识别模块对检测结果(如文本轮廓的紧凑性)高度敏感,容易受到检测误差的传播影响。为解决这一问题,本文提出一种新颖的掩码注意力引导的一阶段文本检测与识别框架——MANGO(Mask Attention Guided One-stage text spotting)。该框架无需依赖RoI操作,可直接对字符序列进行识别。具体而言,我们设计了一种位置感知的掩码注意力模块,为每个文本实例及其字符生成注意力权重,使得图像中不同的文本实例能够被分配至不同的特征图通道,进而分组形成一批实例特征。随后,采用轻量级序列解码器生成最终的字符序列。值得注意的是,MANGO框架天然适用于任意形状文本的检测与识别任务,并且仅需粗粒度的位置信息(如矩形边界框)和文本标注即可实现端到端训练。实验结果表明,所提方法在常规与不规则文本检测基准数据集上均取得了具有竞争力甚至达到新最先进水平的性能,涵盖ICDAR 2013、ICDAR 2015、Total-Text以及SCUT-CTW1500等多个公开数据集。