摘要
本文提出了一种新型的时空注意力残差网络(Spatial Attention Residue Network, STAR-Net),用于场景文本识别。STAR-Net 配备了空间注意力机制,该机制利用空间变换器(spatial transformer)消除自然图像中文本的形变扭曲,使后续的特征提取器能够专注于校正后的文本区域,而不受形变干扰。此外,STAR-Net 采用残差卷积块构建了极深的特征提取网络,这对于细粒度的文本识别任务中有效提取具有判别性的文本特征至关重要。通过将空间注意力机制与残差卷积块相结合,STAR-Net 成为目前用于场景文本识别任务中深度最深且端到端可训练的神经网络。我们在五个公开的基准数据集上进行了实验,结果表明:对于形变较小的场景文本,STAR-Net 的性能可与当前最优方法相媲美;而对于存在显著形变的场景文本,其性能则显著优于现有方法。