
摘要
基于图像的序列识别一直是计算机视觉领域的长期研究课题。本文探讨了场景文字识别问题,这是基于图像的序列识别中最重要且最具挑战性的任务之一。我们提出了一种新颖的神经网络架构,该架构将特征提取、序列建模和转录集成到一个统一的框架中。与现有的场景文字识别系统相比,所提出的架构具有四个显著特点:(1)端到端可训练,而大多数现有算法的各个组件是分别训练和调优的;(2)能够自然处理任意长度的序列,无需进行字符分割或水平尺度归一化;(3)不受任何预定义词典的限制,在无词典和有词典的场景文字识别任务中均表现出色;(4)生成了一个高效且体积更小的模型,这在实际应用中更为实用。我们在包括IIIT-5K、Street View Text和ICDAR数据集在内的标准基准上进行了实验,结果表明所提出的算法优于先前的技术。此外,所提出的算法在基于图像的乐谱识别任务中也表现良好,这显然验证了其通用性。