12 天前

ASTER:一种具有灵活校正能力的注意力场景文本识别器

{and Xiang Bai, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, Baoguang Shi}
摘要

近年来,由于其在众多应用领域中的重要性,场景文本识别(Scene Text Recognition)受到了学术界和工业界的广泛关注。尽管面向文档文本的光学字符识别(OCR)系统已相对成熟,但场景文本识别仍面临诸多挑战。背景复杂、文本外观多样以及布局不规则等因素带来了显著困难,传统OCR方法难以有效应对。近年来,场景文本识别的进展主要得益于基于深度学习的识别模型的成功。其中,一些方法利用卷积神经网络(CNN)逐字符进行文本识别,另一些方法采用CNN对单词进行分类[24]、[26],还有方法结合CNN与循环神经网络(RNN)以识别字符序列[54]。尽管这些方法取得了显著成效,但它们并未显式解决不规则文本(irregular text)的识别问题。所谓不规则文本,是指非水平、非正视方向、具有弯曲布局等特征的文本。在自然场景中,此类文本实例十分常见。如图1所示,典型情况包括定向文本、透视文本[49]以及弯曲文本。由于先前方法缺乏对这类不规则性的不变性设计,因此在识别此类文本时往往表现不佳。

ASTER:一种具有灵活校正能力的注意力场景文本识别器 | 最新论文 | HyperAI超神经