摘要
手写数学表达式(Handwritten Mathematical Expression, HME)的机器识别面临诸多挑战,主要源于手写符号的歧义性以及数学表达式的二维布局结构。受深度学习近期研究的启发,我们提出了一种名为“Watch, Attend and Parse”(WAP)的新颖端到端神经网络方法,该方法能够直接从二维布局中学习识别HME,并将其输出为一维的LaTeX字符序列。与传统方法不同,本模型无需进行符号分割,也无需预设的表达式语法结构,从根本上规避了由此带来的诸多问题。其中,符号识别与结构分析任务分别由“Watcher”和“Parser”模块协同完成。具体而言,我们采用卷积神经网络(CNN)作为编码器,将HME图像作为输入,负责“观察”输入内容;同时,使用带有注意力机制的循环神经网络(RNN)作为解码器,充当“解析器”,用于生成LaTeX序列。此外,输入表达式与输出LaTeX序列之间的对应关系由注意力机制自动学习获得。我们在CROHME国际竞赛发布的基准数据集上验证了所提方法的有效性。基于官方提供的训练数据集,WAP在CROHME 2014测试集上实现了46.55%的表达式识别准确率,在CROHME 2016测试集上达到44.55%的准确率,显著优于当前最优方法。