2ヶ月前

手書き数学式認識における注意集約を基にした双方向相互学習

Bian, Xiaohang ; Qin, Bo ; Xin, Xiaozhe ; Li, Jianwu ; Su, Xuefeng ; Wang, Yanfeng
手書き数学式認識における注意集約を基にした双方向相互学習
要約

手書き数式認識は、与えられた画像から自動的にLaTeXシーケンスを生成することを目指しています。現在、このタスクではアテンションベースのエンコーダー-デコーダーモデルが広く使用されています。これらのモデルは通常、左から右(L2R)の順番で目標シーケンスを生成しますが、右から左(R2L)のコンテキストは活用されていません。本論文では、Attention aggregation based Bi-directional Mutual learning Network (ABM)を提案します。このネットワークは1つの共有エンコーダーと2つの並列逆デコーダー(L2RとR2L)で構成されています。2つのデコーダーは相互蒸留を通じて強化され、各訓練ステップで一対一の知識転送が行われ、2つの逆方向からの補完的な情報を十分に活用します。さらに、多様なスケールの数学記号に対処するため、Attention Aggregation Module (AAM)が提案され、多スケールカバレッジアテンションを効果的に統合します。特に推論フェーズにおいて、モデルがすでに2つの逆方向からの知識を学習していることを考慮し、推論にはL2Rブランチのみを使用します。これにより元のパラメータサイズと推論速度を維持できます。多数の実験結果から、提案手法はデータ拡張やモデルアンサンブルなしでCROHME 2014において56.85%、CROHME 2016において52.92%、CROHME 2019において53.96%の認識精度を達成しており、現行の最先端手法を大幅に上回ることが示されました。ソースコードはhttps://github.com/XH-B/ABMで利用可能です。

手書き数学式認識における注意集約を基にした双方向相互学習 | 最新論文 | HyperAI超神経