
摘要
目前主流的场景文本识别方法主要分为两类:序列到序列(seq2seq)和分割(segmentation)方法。然而,前者通常由多个组件构成,导致实现与部署过程复杂;后者则需要字符级别的标注数据,标注成本较高。本文重新审视了分类视角(classification perspective),将场景文本识别建模为图像分类问题。该视角具有结构简洁、仅需词级别标注的优势,显著降低了数据标注与系统实现的复杂性。为此,我们提出了一种名为CSTR(Classification-based Scene Text Recognition)的新模型,以复兴分类视角。CSTR模型由两部分组成:CPNet(分类视角网络)和SPPN(带全局平均池化的分离卷积预测网络)。该模型的架构与ResNet等标准图像分类模型类似,结构简洁,易于实现与部署。通过大量实验,我们验证了分类视角在场景文本识别任务中的有效性。此外,CSTR在六个公开基准数据集上均取得了接近当前最先进水平的性能,涵盖规则文本与不规则文本等多种场景。相关代码已开源,地址为:https://github.com/Media-Smart/vedastr。