11 天前

自监督隐式字形注意力用于文本识别

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen
自监督隐式字形注意力用于文本识别
摘要

注意力机制因其能够提取字符级别的表征能力,已成为场景文本识别(Scene Text Recognition, STR)方法中的事实标准模块。根据注意力计算方式的不同,现有方法可分为基于隐式注意力(implicit attention)和基于监督注意力(supervised attention)两类:前者从序列级文本标注中学习注意力分布,后者则依赖于字符级边界框标注。然而,隐式注意力可能提取出粗粒度甚至错误的空间区域作为字符注意力,因而容易引发对齐漂移(alignment-drift)问题。虽然监督注意力可缓解该问题,但其具有字符类别特异性,需额外耗费大量人力进行字符级边界框标注,在处理字符类别较多的语言时还会带来显著的内存开销。为解决上述问题,本文提出一种新型注意力机制——自监督隐式字形注意力(Self-supervised Implicit Glyph Attention, SIGA)。SIGA 通过联合进行自监督文本分割与隐式注意力对齐,自动刻画文本图像中的字形结构,从而为注意力机制提供有效的监督信号,显著提升注意力的准确性,且无需额外的字符级标注。实验结果表明,在公开可用的上下文基准以及我们构建的无上下文基准上,SIGA 在注意力准确性与最终识别性能方面均显著优于以往基于注意力的STR方法,且表现稳定可靠。

自监督隐式字形注意力用于文本识别 | 最新论文 | HyperAI超神经