6 个月前

摘要

近年来，文本检测与识别的主流范式是将两项任务整合为一个端到端框架。在此范式下，文本检测与识别均基于从输入图像中提取的共享全局特征图完成。然而，端到端方法面临的主要挑战之一是在处理尺度变化（文本过小或过大）以及任意旋转角度的文字时，识别性能显著下降。为此，本文提出一种新颖的全局到局部注意力机制——GLASS（Global-to-Local Attention for Text Spotting），用于融合全局与局部特征，以应对上述挑战。其中，全局特征由共享主干网络提取，保留整幅图像的上下文信息；而局部特征则在经过缩放、高分辨率且旋转对齐的单词区域上独立计算。局部区域提取的信息有效缓解了尺度变化和文字旋转带来的固有难题。我们通过在不同尺度与角度下的性能分析，验证了该方法在极端尺度与极端旋转角度下的显著提升。此外，本文引入一种面向方向感知的损失函数，用于监督检测任务，实验证明该损失项在所有角度下均能有效提升检测与识别的整体性能。最后，我们展示了GLASS的通用性：将其集成至多个领先的文本检测与识别架构中，均能进一步提升其文本定位与识别性能。实验结果表明，本方法在多个基准数据集上取得了当前最优（SOTA）的性能，包括新发布的TextOCR数据集。

源 PDF