2ヶ月前
手書き数学式認識に双方向トレーニングされたトランスフォーマーの利用
Zhao, Wenqi ; Gao, Liangcai ; Yan, Zuoyu ; Peng, Shuai ; Du, Lin ; Zhang, Ziyin

要約
エンコーダー-デコーダーモデルは、最近手書き数式認識において大きな進歩を遂げています。しかし、既存の手法が画像特徴に正確に注意を割り当てるのは依然として課題となっています。さらに、これらのエンコーダー-デコーダーモデルは通常、デコーダ部分でRNNベースのモデルを使用しており、これは長めの$\LaTeX{}$シーケンスの処理効率を低下させています。本論文では、RNNベースのデコーダを置き換えるためにトランスフォーマーベースのデコーダを採用し、全体的なモデルアーキテクチャを非常に簡潔にしています。また、双方向言語モデリングにおけるトランスフォーマーの潜在能力を十分に活用するための新しい訓練戦略が導入されています。データ拡張を使用しないいくつかの方法と比較した実験結果から、我々のモデルはCROHME 2014において現行最先端手法よりもExpRate(認識精度)を2.23%向上させました。同様に、CROHME 2016およびCROHME 2019においても、それぞれExpRateを1.92%および2.28%向上させています。