11 天前

SAFL:一种基于焦点损失的自注意力场景文本识别器

Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung Nguyen, Phi Le Nguyen
SAFL:一种基于焦点损失的自注意力场景文本识别器
摘要

近年来,由于在众多实际应用中具有重要意义,场景文本识别引起了学术界和实际用户的广泛关注。尽管光学字符识别(OCR)技术取得了显著进展,但场景文本识别仍面临诸多挑战,主要源于文本固有的扭曲变形和不规则排布等问题。现有的大多数方法主要依赖于循环神经网络(RNN)或基于卷积神经网络(CNN)的架构。然而,RNN由于依赖序列计算,通常存在训练速度慢的问题,并容易受到梯度消失或信息瓶颈的影响;而CNN则在模型复杂度与识别性能之间面临权衡。针对上述局限,本文提出一种基于自注意力机制的神经网络模型——SAFL(Self-Attention-based Focal Loss model),并引入焦点损失(focal loss)以提升模型在场景文本识别任务中的表现。相较于传统的负对数似然损失,焦点损失能够使模型更加关注低频样本的训练,从而改善整体识别效果。此外,为应对文本的形变与不规则布局问题,本文引入空间变换网络(Spatial Transformer Network, STN)对输入文本进行几何校正,再送入后续识别网络。通过与七种基准方法的对比实验,结果表明,所提出的SAFL模型在多个公开数据集上均取得了最优的识别性能,验证了其有效性与优越性。

SAFL:一种基于焦点损失的自注意力场景文本识别器 | 最新论文 | HyperAI超神经