17 天前

TDv2:一种用于离线数学表达式识别的新型树结构解码器

{Yiqing Hu, Bo Ren, Chen Yang, Jianshu Zhang, Yunqing Li, Jun Du, Changjie Wu}
摘要

近年来,在手写数学表达式识别(Handwritten Mathematical Expression Recognition, HMER)领域,树解码器(tree decoder)逐渐取代了传统的LaTeX字符串解码器,因其能够有效捕捉数学表达式的层次化树状结构。然而,以往的树解码器在处理树结构标签时,通常将其转换为固定且有序的序列,这限制了对树标签多样化表达形式的充分利用。为此,本文提出一种新型树解码器(TDv2),旨在充分挖掘树结构标签的表达潜力。与以往方法不同,该模型在训练和推理过程中无需为节点的不同分支设定固定的优先级,从而显著提升了模型的泛化能力。本模型在输入与输出设计中均充分融合了树结构标签的语义信息,使得解码过程无需显式查找父节点,简化了解码流程,并引入先验信息以辅助节点预测。通过系统的消融实验和注意力可视化分析,我们验证了模型各组件的有效性。在权威的CROHME 14/16/19数据集上,所提方法取得了当前最优的识别性能,达到了该领域的最新水平。