HyperAIHyperAI

Command Palette

Search for a command to run...

ASTER:一种具有灵活校正能力的注意力场景文本识别器

and Xiang Bai Mingkun Yang Xinggang Wang Pengyuan Lyu Cong Yao Baoguang Shi

摘要

近年来,由于其在众多应用领域中的重要性,场景文本识别(Scene Text Recognition)受到了学术界和工业界的广泛关注。尽管面向文档文本的光学字符识别(OCR)系统已相对成熟,但场景文本识别仍面临诸多挑战。背景复杂、文本外观多样以及布局不规则等因素带来了显著困难,传统OCR方法难以有效应对。近年来,场景文本识别的进展主要得益于基于深度学习的识别模型的成功。其中,一些方法利用卷积神经网络(CNN)逐字符进行文本识别,另一些方法采用CNN对单词进行分类[24]、[26],还有方法结合CNN与循环神经网络(RNN)以识别字符序列[54]。尽管这些方法取得了显著成效,但它们并未显式解决不规则文本(irregular text)的识别问题。所谓不规则文本,是指非水平、非正视方向、具有弯曲布局等特征的文本。在自然场景中,此类文本实例十分常见。如图1所示,典型情况包括定向文本、透视文本[49]以及弯曲文本。由于先前方法缺乏对这类不规则性的不变性设计,因此在识别此类文本时往往表现不佳。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供