11 天前

表示与相关性增强的编码器-解码器框架用于场景文本识别

Mengmeng Cui, Wei Wang, Jinjin Zhang, Liang Wang
表示与相关性增强的编码器-解码器框架用于场景文本识别
摘要

基于注意力机制的编码器-解码器框架在场景文本识别任务中被广泛采用。然而,当前最先进的(SOTA)方法在高效利用输入文本图像的局部视觉信息与全局上下文信息方面仍存在改进空间,同时在场景处理模块(编码器)与文本处理模块(解码器)之间的鲁棒性关联方面也亟待提升。为此,本文提出一种表示与关联增强的编码器-解码器框架(Representation and Correlation Enhanced Encoder-Decoder Framework, RCEED),以解决上述问题并突破性能瓶颈。在编码器模块中,局部视觉特征、全局上下文特征与位置信息被对齐并融合,生成一个紧凑的高维综合特征图。在解码器模块中,我们采用两种策略增强场景特征空间与文本特征空间之间的关联性:(1)解码器的初始化过程受到编码器输出的整体特征以及全局概览向量(global glimpse vector)的引导;(2)利用多头通用注意力机制生成的特征增强型概览向量,辅助循环神经网络(RNN)在每一步迭代中的状态更新与字符预测。此外,本文还设计了一种层归一化-丢弃率LSTM单元(LayerNorm-Dropout LSTM cell),以提升模型对多样化文本变化的泛化能力。在多个公开基准数据集上的大量实验结果表明,RCEED在场景文本识别任务中表现出显著优越的性能,尤其在处理不规则文本时优势更为突出。

表示与相关性增强的编码器-解码器框架用于场景文本识别 | 最新论文 | HyperAI超神经