2 个月前
当计数遇到手写数学表达式识别:面向计数的手写数学表达式识别网络
Li, Bohan ; Yuan, Ye ; Liang, Dingkang ; Liu, Xiao ; Ji, Zhilong ; Bai, Jinfeng ; Liu, Wenyu ; Bai, Xiang

摘要
近日,大多数手写数学表达式识别(HMER)方法采用了编码器-解码器网络,这些网络通过注意力机制直接从公式图像中预测标记序列。然而,由于书写风格或空间布局的较大差异,这类方法在读取复杂结构的公式或生成较长的标记序列时可能会出现不准确的情况。为了解决这一问题,我们提出了一种名为计数感知网络(Counting-Aware Network, CAN)的非传统网络,该网络同时优化两个任务:HMER 和符号计数。具体而言,我们设计了一个弱监督计数模块,该模块无需符号级别的位置注释即可预测每个符号类别的数量,并将其集成到一个典型的基于注意力机制的编码器-解码器模型中用于 HMER。在 HMER 基准数据集上的实验验证了联合优化和计数结果对于纠正编码器-解码器模型的预测错误是有益的,并且 CAN 一贯优于现有的最先进方法。特别是与用于 HMER 的编码器-解码器模型相比,所提出的计数模块带来的额外时间成本微乎其微。源代码可在 https://github.com/LBH1024/CAN 获取。