11 天前

再看一遍:用于准确且鲁棒场景文本识别的双并行注意力网络

{Junbo Guo, Hongtao Xie, Guoqing Jin, Zilong Fu}
摘要

目前,采用并行解耦编码器-解码器(Parallel-Decoupled Encoder-Decoder, PDED)框架进行场景文本识别已成为一种趋势,因其具备良好的灵活性与高效性。然而,由于该框架中所使用的并行位置注意力模块(Parallel Positional Attention Module, PPAM)存在查询(query)与键(key)之间信息内容不一致的问题——即查询仅包含位置信息,而键同时包含上下文与位置信息——在面对困难样本(如模糊文本、不规则文本或低质量图像)时,容易产生视觉错位现象。为解决这一问题,本文提出一种双并行注意力网络(Dual Parallel Attention Network, DPAN),在原始PPAM的基础上级联一个新设计的并行上下文注意力模块(Parallel Context Attention Module, PCAM),利用语言上下文信息弥补查询与键之间的信息不一致性。具体而言,在PCAM中,我们以PPAM输出的视觉特征作为输入,引入双向语言模型对这些特征进行增强,从而生成更具语义语境意义的查询。通过该机制,使查询与键在信息内容上保持一致,进而促使注意力机制生成更为精准的视觉片段,显著提升整个PDED框架的识别准确率与鲁棒性。实验结果验证了所提PCAM的有效性,充分说明在注意力机制中保持查询与键间信息一致性的重要性。在六个基准数据集上的实验表明,DPAN在规则文本与不规则文本识别任务中均大幅超越现有领先方法,取得了新的最先进性能。代码已开源,地址为:https://github.com/Jackandrome/DPAN。

再看一遍:用于准确且鲁棒场景文本识别的双并行注意力网络 | 最新论文 | HyperAI超神经