11 天前

多模态文本识别网络:视觉特征与语义特征之间的交互增强

Byeonghu Na, Yoonsik Kim, Sungrae Park
多模态文本识别网络:视觉特征与语义特征之间的交互增强
摘要

语言学知识通过为字符序列提供语义信息,在场景文本识别任务中带来了显著收益。然而,由于以往方法仅将语言学知识独立应用于输出序列,未能充分利用语义信息来理解视觉线索,从而限制了其在文本识别中的潜力。本文提出一种新型方法——多模态文本识别网络(Multi-modAl Text Recognition Network, MATRN),通过促进视觉与语义特征之间的交互,显著提升识别性能。具体而言,MATRN识别视觉与语义特征的对应关系,并将空间信息编码至语义特征中。基于该空间编码,模型通过参考另一模态的相关特征,对视觉与语义特征进行增强。此外,MATRN在训练阶段通过隐藏与字符相关的视觉线索,主动引导语义特征融入视觉特征,从而强化语义引导的视觉理解能力。实验结果表明,MATRN在七个基准数据集上均取得显著优于现有方法的性能,大幅领先于简单融合双模态信息的基线方法。消融实验进一步验证了所提组件的有效性。项目代码已开源,地址为:https://github.com/wp03052/MATRN。

多模态文本识别网络:视觉特征与语义特征之间的交互增强 | 最新论文 | HyperAI超神经