
摘要
在自然场景中检测小尺寸文本实例尤为具有挑战性,不规则排列位置与非理想光照条件常导致检测错误。本文提出MixNet,一种融合卷积神经网络(CNN)与Transformer优势的混合架构,能够准确检测复杂自然场景中的小尺寸文本,且不受文本方向、风格及光照条件的影响。MixNet包含两个核心模块:(1)作为主干网络的特征洗牌网络(Feature Shuffle Network, FSNet);(2)利用文本区域一维流形约束特性的中心Transformer模块(Central Transformer Block, CTBlock)。我们首次在FSNet中引入一种新颖的特征洗牌策略,促进多尺度特征间的高效交互,生成的高分辨率特征优于当前主流的ResNet与HRNet。基于FSNet的主干网络在多项现有文本检测方法(包括PAN、DB和FAST)上均取得了显著性能提升。随后,我们设计了互补的CTBlock,利用类似文本区域中轴线(medial axis)的中心线特征,在小尺寸文本密集排列的复杂场景下,表现出优于传统轮廓特征方法的检测能力。大量实验结果表明,将FSNet与CTBlock相结合的MixNet,在多个主流场景文本检测数据集上均达到了当前最优(state-of-the-art)的检测性能。