
摘要
从自然图像中识别文本是计算机视觉领域的一个热门研究课题,因其广泛的应用而备受关注。尽管光学字符识别(OCR)已经经历了数十年的研究,但从自然图像中识别文本仍然是一个具有挑战性的任务。这是因为场景中的文本通常以不规则的方式排列(例如弯曲、任意方向或严重扭曲),而这些问题在现有文献中尚未得到充分解决。现有的文本识别方法主要适用于规则(水平和正面)文本,无法简单地推广到处理不规则文本。本文提出了一种任意方向网络(Arbitrary Orientation Network, AON),直接提取不规则文本的深层特征,并将其与基于注意力机制的解码器结合,生成字符序列。整个网络仅使用图像和单词级别的注释即可进行端到端训练。在包括CUTE80、SVT-Perspective、IIIT5k、SVT和ICDAR数据集在内的多个基准测试上的大量实验表明,所提出的基于AON的方法在不规则数据集上达到了最先进的性能,在规则数据集上的表现也与现有的主要方法相当。