6 个月前

摘要

现有的场景文本识别（Scene Text Recognition, STR）方法通常利用语言模型来优化视觉识别（Visual Recognition, VR）模型所预测的一维字符序列的联合概率，然而这类方法忽略了字符实例内部及之间的二维视觉语义空间上下文信息，导致其在识别任意形状文本时泛化能力较差。为解决这一问题，本文首次提出基于视觉语义进行文本推理的范式。技术上，给定VR模型预测的字符分割图，我们为每个字符实例构建一个子图：图中的节点代表该实例内的像素，边则根据像素间的空间相似性进行连接。随后，通过根节点将这些子图依次连接并合并为一个完整的图结构。基于该图结构，我们设计了一种图卷积网络用于文本推理（Graph-based Textual Reasoning, GTR），并通过交叉熵损失进行监督训练。由于具备更强的文本推理能力，GTR可无缝集成至主流STR模型中以提升性能。具体而言，我们构建了S-GTR模型，将GTR与基于分割的STR基线模型中的语言模型并联，通过相互学习有效挖掘视觉与语言信息之间的互补性。S-GTR在六个具有挑战性的STR基准测试上取得了新的最先进性能，并展现出对多语言数据集的良好泛化能力。代码已开源，地址为：https://github.com/adeline-cs/GTR。

源 PDF 查看代码