2 个月前

PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式

Guan, Tongkun ; Lin, Chengyu ; Shen, Wei ; Yang, Xiaokang
PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式
摘要

手写数学表达式识别(HMER)在人机交互场景中有着广泛的应用,例如数字化教育和自动化办公。近期,基于序列的模型采用编码器-解码器架构直接预测表达式图像的LaTeX序列,已成为解决这一任务的常用方法。然而,这些方法仅隐式学习了LaTeX提供的语法规则,由于复杂的结构关系和多样的书写风格,可能无法准确描述符号之间的位置和层次关系。为了解决这一挑战,我们提出了一种位置森林变换器(PosFormer),用于HMER任务,该模型联合优化两个任务:表达式识别和位置识别,从而显式地实现位置感知的符号特征表示学习。具体而言,我们首先设计了一个位置森林结构,将数学表达式建模为森林结构,并解析符号之间的相对位置关系。无需额外注释,每个符号在森林中都被分配了一个位置标识符,以表示其相对的空间位置。其次,我们提出了一种隐式注意力校正模块,在基于序列的解码器架构中准确捕捉HMER的注意力。大量实验验证了PosFormer的优势,在单行CROHME 2014/2016/2019、多行M2E以及复杂MNE数据集上分别取得了2.03%、1.22%、2.00%、1.83%和4.62%的性能提升,且没有增加额外的延迟或计算成本。代码已发布在https://github.com/SJTU-DeepVisionLab/PosFormer。

PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式 | 最新论文 | HyperAI超神经