6 个月前

摘要

在自然场景中检测小尺寸文本实例尤为具有挑战性，不规则排列位置与非理想光照条件常导致检测错误。本文提出MixNet，一种融合卷积神经网络（CNN）与Transformer优势的混合架构，能够准确检测复杂自然场景中的小尺寸文本，且不受文本方向、风格及光照条件的影响。MixNet包含两个核心模块：（1）作为主干网络的特征洗牌网络（Feature Shuffle Network, FSNet）；（2）利用文本区域一维流形约束特性的中心Transformer模块（Central Transformer Block, CTBlock）。我们首次在FSNet中引入一种新颖的特征洗牌策略，促进多尺度特征间的高效交互，生成的高分辨率特征优于当前主流的ResNet与HRNet。基于FSNet的主干网络在多项现有文本检测方法（包括PAN、DB和FAST）上均取得了显著性能提升。随后，我们设计了互补的CTBlock，利用类似文本区域中轴线（medial axis）的中心线特征，在小尺寸文本密集排列的复杂场景下，表现出优于传统轮廓特征方法的检测能力。大量实验结果表明，将FSNet与CTBlock相结合的MixNet，在多个主流场景文本检测数据集上均达到了当前最优（state-of-the-art）的检测性能。

源 PDF 查看代码