15 天前
SVTR:基于单一视觉模型的场景文本识别
Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang

摘要
主流的场景文本识别模型通常由两个核心组件构成:用于特征提取的视觉模型和用于文本转录的序列模型。尽管这种混合架构具有较高的识别精度,但其结构复杂且计算效率较低。在本研究中,我们提出了一种基于分块图像标记化框架的单视觉模型(Single Visual model for Scene Text Recognition),简称SVTR,该方法完全摒弃了传统的序列建模机制。SVTR首先将图像中的文本分解为若干小块,称为字符组件;随后通过层级化的处理阶段,对这些组件进行逐级混合、合并与组合。为此,我们设计了全局混合块与局部混合块,分别用于捕捉字符间的上下文关系与字符内部的结构特征,从而实现多粒度的字符组件感知。最终,通过一个简单的线性预测层完成字符识别。在英文与中文场景文本识别任务上的实验结果表明,SVTR具有显著的有效性。其中,SVTR-L(Large)在英文任务上达到极具竞争力的识别精度,并在中文任务上显著优于现有方法,同时具备更快的运行速度;而SVTR-T(Tiny)则是一个更小、更高效的模型,在推理阶段展现出优异的运行速度。相关代码已公开,可访问 https://github.com/PaddlePaddle/PaddleOCR 获取。