11 天前

重新审视场景文本识别中的分类视角

Hongxiang Cai, Jun Sun, Yichao Xiong

摘要

目前主流的场景文本识别方法主要分为两类：序列到序列（seq2seq）和分割（segmentation）方法。然而，前者通常由多个组件构成，导致实现与部署过程复杂；后者则需要字符级别的标注数据，标注成本较高。本文重新审视了分类视角（classification perspective），将场景文本识别建模为图像分类问题。该视角具有结构简洁、仅需词级别标注的优势，显著降低了数据标注与系统实现的复杂性。为此，我们提出了一种名为CSTR（Classification-based Scene Text Recognition）的新模型，以复兴分类视角。CSTR模型由两部分组成：CPNet（分类视角网络）和SPPN（带全局平均池化的分离卷积预测网络）。该模型的架构与ResNet等标准图像分类模型类似，结构简洁，易于实现与部署。通过大量实验，我们验证了分类视角在场景文本识别任务中的有效性。此外，CSTR在六个公开基准数据集上均取得了接近当前最先进水平的性能，涵盖规则文本与不规则文本等多种场景。相关代码已开源，地址为：https://github.com/Media-Smart/vedastr。