16 天前

基于二维自注意力机制识别任意形状文本

Junyeop Lee, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, Hwalsuk Lee
基于二维自注意力机制识别任意形状文本
摘要

场景文本识别(Scene Text Recognition, STR)是指在自然场景图像中识别字符序列的任务。尽管近年来STR方法取得了显著进展,但现有方法在识别任意形状文本方面仍存在局限,例如高度弯曲或旋转的文本,而这类文本在日常生活中极为常见(如餐馆招牌、产品标签、公司标识等)。本文提出一种新型网络架构——自注意力场景文本识别网络(Self-Attention Text Recognition Network, SATRN),该模型受Transformer架构启发,利用自注意力机制建模场景图像中字符之间的二维(2D)空间依赖关系。通过充分发挥自注意力机制的全局信息传播能力,SATRN能够有效识别具有任意排列方式及大字符间距的文本。实验结果表明,SATRN在“不规则文本”基准测试上平均性能超越现有STR模型达5.7个百分点(pp)。本文还提供了详尽的实证分析,揭示了模型内部工作机制及其适用范围(如旋转文本、多行文本等)。相关代码将开源发布。

基于二维自注意力机制识别任意形状文本 | 最新论文 | HyperAI超神经