8 天前

ABINet++：面向场景文本识别的自主、双向与迭代语言建模

Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang

摘要

场景文本检测在计算机视觉领域具有重要意义，因其应用场景极为广泛。近年来的研究尝试引入语言知识以应对具有挑战性的文本识别任务，而非仅依赖纯视觉分类方法。然而，如何在端到端深度网络中有效建模语言规则，仍是当前研究的一大挑战。本文指出，现有语言模型能力受限主要源于三个方面：1）隐式语言建模；2）单向特征表示；3）输入噪声干扰下的语言模型。针对上述问题，本文提出一种自主、双向且迭代的ABINet++框架，用于场景文本检测。首先，“自主”特性体现在通过解耦识别器为视觉模型与语言模型，并阻断两者之间的梯度流动，从而实现显式语言建模。其次，提出一种新颖的双向完形填空网络（Bidirectional Cloze Network, BCN）作为语言模型，基于双向特征表示机制，增强上下文理解能力。第三，设计了一种迭代修正机制，用于语言模型的执行方式，能够有效缓解噪声输入带来的负面影响。最后，为提升ABINet++在长文本识别中的性能，提出在U-Net结构中嵌入Transformer单元以聚合水平方向特征，并设计了位置与内容注意力模块，通过融合字符顺序与语义内容信息，实现对字符特征的精准注意力聚焦。实验结果表明，ABINet++在多个场景文本识别与场景文本检测基准测试中均达到当前最优性能，充分验证了该方法在多种环境下的优越性，尤其在低质量图像上的表现尤为突出。此外，大量跨语言实验（涵盖英文与中文）进一步证明，将本文所提出的语言建模方法集成至文本检测器中，相较于常用的基于注意力机制的识别器，可在识别准确率与推理速度方面均实现显著提升。