8ヶ月前

概要

手書き数式認識は、与えられた画像から自動的にLaTeXシーケンスを生成することを目指しています。現在、このタスクではアテンションベースのエンコーダー-デコーダーモデルが広く使用されています。これらのモデルは通常、左から右（L2R）の順番で目標シーケンスを生成しますが、右から左（R2L）のコンテキストは活用されていません。本論文では、Attention aggregation based Bi-directional Mutual learning Network (ABM)を提案します。このネットワークは1つの共有エンコーダーと2つの並列逆デコーダー（L2RとR2L）で構成されています。2つのデコーダーは相互蒸留を通じて強化され、各訓練ステップで一対一の知識転送が行われ、2つの逆方向からの補完的な情報を十分に活用します。さらに、多様なスケールの数学記号に対処するため、Attention Aggregation Module (AAM)が提案され、多スケールカバレッジアテンションを効果的に統合します。特に推論フェーズにおいて、モデルがすでに2つの逆方向からの知識を学習していることを考慮し、推論にはL2Rブランチのみを使用します。これにより元のパラメータサイズと推論速度を維持できます。多数の実験結果から、提案手法はデータ拡張やモデルアンサンブルなしでCROHME 2014において56.85%、CROHME 2016において52.92%、CROHME 2019において53.96%の認識精度を達成しており、現行の最先端手法を大幅に上回ることが示されました。ソースコードはhttps://github.com/XH-B/ABMで利用可能です。

ソースPDF