11 天前

CLIP4STR:基于预训练视觉-语言模型的场景文本识别简单基线

Shuai Zhao, Ruijie Quan, Linchao Zhu, Yi Yang
CLIP4STR:基于预训练视觉-语言模型的场景文本识别简单基线
摘要

预训练视觉-语言模型(Vision-Language Models, VLMs)已成为各类下游任务的默认基础模型。然而,尽管VLM在作为场景文本识别(Scene Text Recognition, STR)强大阅读器方面具有巨大潜力,当前的场景文本识别方法仍普遍偏好使用仅在单一模态(即视觉模态)上预训练的骨干网络。例如,CLIP能够稳健地识别图像中的常规文本(水平方向)以及不规则文本(旋转、弯曲、模糊或遮挡等)。基于这一优势,本文将CLIP转化为一个场景文本阅读器,提出CLIP4STR——一种基于CLIP图像编码器与文本编码器构建的简洁而高效的STR方法。该方法包含两个编码器-解码器分支:视觉分支和跨模态分支。视觉分支基于视觉特征生成初始预测,而跨模态分支则通过缓解视觉特征与文本语义之间的差异,对初始预测进行精细化修正。为充分挖掘两个分支的潜力,我们设计了一种双阶段“预测-修正”解码策略用于推理过程。在模型规模、预训练数据和训练数据等多个维度上对CLIP4STR进行扩展,其在13个STR基准测试中均取得了当前最优性能。此外,本文还开展了一项全面的实证研究,深入探讨CLIP在STR任务中适配机制的理解。本方法为未来基于VLM的STR研究建立了一个简洁而强大的基准。