HyperAIHyperAI

Command Palette

Search for a command to run...

手書き数学式認識における注意集約を基にした双方向相互学習

Bian Xiaohang ; Qin Bo ; Xin Xiaozhe ; Li Jianwu ; Su Xuefeng ; Wang Yanfeng

概要

手書き数式認識は、与えられた画像から自動的にLaTeXシーケンスを生成することを目指しています。現在、このタスクではアテンションベースのエンコーダー-デコーダーモデルが広く使用されています。これらのモデルは通常、左から右(L2R)の順番で目標シーケンスを生成しますが、右から左(R2L)のコンテキストは活用されていません。本論文では、Attention aggregation based Bi-directional Mutual learning Network (ABM)を提案します。このネットワークは1つの共有エンコーダーと2つの並列逆デコーダー(L2RとR2L)で構成されています。2つのデコーダーは相互蒸留を通じて強化され、各訓練ステップで一対一の知識転送が行われ、2つの逆方向からの補完的な情報を十分に活用します。さらに、多様なスケールの数学記号に対処するため、Attention Aggregation Module (AAM)が提案され、多スケールカバレッジアテンションを効果的に統合します。特に推論フェーズにおいて、モデルがすでに2つの逆方向からの知識を学習していることを考慮し、推論にはL2Rブランチのみを使用します。これにより元のパラメータサイズと推論速度を維持できます。多数の実験結果から、提案手法はデータ拡張やモデルアンサンブルなしでCROHME 2014において56.85%、CROHME 2016において52.92%、CROHME 2019において53.96%の認識精度を達成しており、現行の最先端手法を大幅に上回ることが示されました。ソースコードはhttps://github.com/XH-B/ABMで利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています