11 天前

自监督隐式字形注意力用于文本识别

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen

摘要

注意力机制因其能够提取字符级别的表征能力，已成为场景文本识别（Scene Text Recognition, STR）方法中的事实标准模块。根据注意力计算方式的不同，现有方法可分为基于隐式注意力（implicit attention）和基于监督注意力（supervised attention）两类：前者从序列级文本标注中学习注意力分布，后者则依赖于字符级边界框标注。然而，隐式注意力可能提取出粗粒度甚至错误的空间区域作为字符注意力，因而容易引发对齐漂移（alignment-drift）问题。虽然监督注意力可缓解该问题，但其具有字符类别特异性，需额外耗费大量人力进行字符级边界框标注，在处理字符类别较多的语言时还会带来显著的内存开销。为解决上述问题，本文提出一种新型注意力机制——自监督隐式字形注意力（Self-supervised Implicit Glyph Attention, SIGA）。SIGA 通过联合进行自监督文本分割与隐式注意力对齐，自动刻画文本图像中的字形结构，从而为注意力机制提供有效的监督信号，显著提升注意力的准确性，且无需额外的字符级标注。实验结果表明，在公开可用的上下文基准以及我们构建的无上下文基准上，SIGA 在注意力准确性与最终识别性能方面均显著优于以往基于注意力的STR方法，且表现稳定可靠。