2 个月前
NAMER:用于手写数学表达式识别的非自回归建模
Liu, Chenyu ; Pan, Jia ; Hu, Jinshui ; Yin, Baocai ; Yin, Bing ; Chen, Mingjun ; Liu, Cong ; Du, Jun ; Liu, Qingfeng

摘要
近期,手写数学表达式识别(HMER)因其在文档理解中的多样化应用而在模式识别领域受到了广泛关注。目前的方法通常将HMER视为自回归(AR)编码器-解码器框架内的图像到序列生成任务。然而,这些方法存在若干缺点:1) 缺乏整体语言上下文,限制了当前解码步骤之外的信息利用;2) 自回归解码过程中错误累积;3) 解码速度较慢。为了解决这些问题,本文首次尝试构建一种新颖的自底向上非自回归建模方法用于HMER,称为NAMER。NAMER包括一个视觉感知分词器(Visual Aware Tokenizer, VAT)和一个并行图解码器(Parallel Graph Decoder, PGD)。首先,VAT在粗略层面上对可见符号和局部关系进行分词。随后,PGD并行地细化所有分词并建立连接性,充分利用全面的视觉和语言上下文。在CROHME 2014/2016/2019和HME100K数据集上的实验表明,NAMER不仅在ExpRate指标上分别比现有最先进(SOTA)方法提高了1.93%、2.35%、1.49%和0.62%,而且在解码时间和整体帧率(FPS)上分别实现了13.7倍和6.7倍的速度提升,证明了NAMER的有效性和高效性。