6 个月前

摘要

近年来，由于在众多实际应用中具有重要意义，场景文本识别引起了学术界和实际用户的广泛关注。尽管光学字符识别（OCR）技术取得了显著进展，但场景文本识别仍面临诸多挑战，主要源于文本固有的扭曲变形和不规则排布等问题。现有的大多数方法主要依赖于循环神经网络（RNN）或基于卷积神经网络（CNN）的架构。然而，RNN由于依赖序列计算，通常存在训练速度慢的问题，并容易受到梯度消失或信息瓶颈的影响；而CNN则在模型复杂度与识别性能之间面临权衡。针对上述局限，本文提出一种基于自注意力机制的神经网络模型——SAFL（Self-Attention-based Focal Loss model），并引入焦点损失（focal loss）以提升模型在场景文本识别任务中的表现。相较于传统的负对数似然损失，焦点损失能够使模型更加关注低频样本的训练，从而改善整体识别效果。此外，为应对文本的形变与不规则布局问题，本文引入空间变换网络（Spatial Transformer Network, STN）对输入文本进行几何校正，再送入后续识别网络。通过与七种基准方法的对比实验，结果表明，所提出的SAFL模型在多个公开数据集上均取得了最优的识别性能，验证了其有效性与优越性。

源 PDF