11 天前

基于语义推理网络的精准场景文本识别

Deli Yu, Xuan Li, Chengquan Zhang, Junyu Han, Jingtuo Liu, Errui Ding
基于语义推理网络的精准场景文本识别
摘要

场景文本图像包含两个层次的内容:视觉纹理与语义信息。尽管近年来已有诸多场景文本识别方法取得了显著进展,但针对挖掘语义信息以辅助文本识别的研究仍相对不足,现有工作大多仅探索了类似RNN的结构来隐式建模语义信息。然而,我们观察到基于RNN的方法存在明显缺陷,例如依赖时间顺序的解码方式以及语义上下文的一维串行传播机制,这些限制显著削弱了语义信息的有效性,并制约了计算效率。为缓解上述问题,本文提出一种新颖的端到端可训练框架——语义推理网络(Semantic Reasoning Network, SRN),其中引入全局语义推理模块(Global Semantic Reasoning Module, GSRM),通过多路并行传输机制捕捉全局语义上下文。在7个公开基准数据集上的实验结果表明,该方法在规则文本、不规则文本及非拉丁语系长文本等多种场景下均取得了当前最优性能,充分验证了其有效性与鲁棒性。此外,SRN在推理速度上显著优于基于RNN的方法,展现出在实际应用中的重要价值。

基于语义推理网络的精准场景文本识别 | 最新论文 | HyperAI超神经