2 个月前
基于像素聚合网络的高效准确任意形状文本检测
Wenhai Wang; Enze Xie; Xiaoge Song; Yuhang Zang; Wenjia Wang; Tong Lu; Gang Yu; Chunhua Shen

摘要
场景文字检测是场景文字识别系统中的一个重要步骤,近年来随着卷积神经网络的发展取得了快速进步。然而,仍存在两个主要挑战阻碍其在实际应用中的部署。第一个问题是速度与精度之间的权衡。第二个问题是建模任意形状的文字实例。最近,一些方法被提出以解决任意形状文字检测的问题,但这些方法很少考虑整个流程的速度,在实际应用中可能会有所不足。本文提出了一种高效且准确的任意形状文字检测器,称为像素聚合网络(Pixel Aggregation Network, PAN),该网络配备了一个低计算成本的分割头和一个可学习的后处理模块。具体而言,分割头由特征金字塔增强模块(Feature Pyramid Enhancement Module, FPEM)和特征融合模块(Feature Fusion Module, FFM)组成。FPEM是一个可级联的U形模块,可以引入多层级信息以指导更好的分割。FFM则可以将不同深度的FPEM提供的特征汇聚成最终用于分割的特征。可学习的后处理通过像素聚合(Pixel Aggregation, PA)实现,可以通过预测的相似度向量精确地聚合文字像素。在多个标准基准上的实验验证了所提出的PAN的优势。值得注意的是,我们的方法在CTW1500数据集上可以达到每秒84.2帧(FPS)的情况下获得79.9%的竞争性F值。