
摘要
图像超分辨率技术通常被视为场景文本识别的预处理步骤,其目标是从低分辨率文本图像中恢复出真实的特征。由于文本在形状、字体、背景等方面存在巨大差异,该任务始终面临挑战。然而,现有大多数方法采用通用的超分辨率框架处理场景文本图像,忽视了文本特有的属性,如文本级布局结构和字符级细节信息。为此,本文提出一种面向文本的超分辨率框架——场景文本望远镜(Scene Text Telescope, STT)。在文本级布局建模方面,我们设计了一种基于Transformer的超分辨率网络(Transformer-Based Super-Resolution Network, TBSRN),其中包含自注意力模块,能够有效提取文本的序列化信息,从而对任意方向的文本具有良好的鲁棒性。在字符级细节建模方面,我们引入位置感知模块(Position-Aware Module)与内容感知模块(Content-Aware Module),分别用于突出每个字符的位置信息与语义内容。针对低分辨率下部分字符难以区分的问题,我们进一步采用加权交叉熵损失函数以增强模型对细微差异的区分能力。我们在TextZoom数据集以及多个主流场景文本识别基准数据集上开展了大量实验,评估超分辨率图像在预训练识别器下的文本识别性能以及图像质量。实验结果表明,所提出的STT框架能够有效生成面向文本的高质量超分辨率图像,在识别准确率方面显著优于现有方法。