2 个月前
基于注意力聚合的双向互学习手写数学表达式识别
Bian, Xiaohang ; Qin, Bo ; Xin, Xiaozhe ; Li, Jianwu ; Su, Xuefeng ; Wang, Yanfeng

摘要
手写数学表达式识别旨在自动从给定图像生成LaTeX序列。目前,基于注意力机制的编码器-解码器模型在这一任务中被广泛应用。这些模型通常以从左到右(L2R)的方式生成目标序列,而未充分利用从右到左(R2L)的上下文信息。在本文中,我们提出了一种基于注意力聚合的双向互学习网络(Attention aggregation based Bi-directional Mutual learning Network, ABM),该网络由一个共享编码器和两个并行的逆向解码器(L2R和R2L)组成。通过互蒸馏增强这两个解码器,即在每个训练步骤中进行一对一的知识传递,从而充分利用来自两个逆向的互补信息。此外,为了处理不同尺度的数学符号,我们提出了一种注意力聚合模块(Attention Aggregation Module, AAM),能够有效整合多尺度覆盖注意力。值得注意的是,在推理阶段,鉴于模型已经从两个逆向方向学到了知识,我们仅使用L2R分支进行推理,以保持原有的参数规模和推理速度。大量实验表明,我们的方法在不使用数据增强和模型集成的情况下,在CROHME 2014上的识别准确率为56.85%,在CROHME 2016上的识别准确率为52.92%,在CROHME 2019上的识别准确率为53.96%,显著优于现有最先进方法。源代码可在https://github.com/XH-B/ABM获取。