2ヶ月前
NAMER: 手書き数式認識のための非自己回帰モデル
Liu, Chenyu ; Pan, Jia ; Hu, Jinshui ; Yin, Baocai ; Yin, Bing ; Chen, Mingjun ; Liu, Cong ; Du, Jun ; Liu, Qingfeng

要約
最近、手書き数式認識(HMER)は、文書理解における多様な応用のため、パターン認識分野で大きな注目を集めています。現在の手法は通常、HMERを自己回帰(AR)エンコーダー-デコーダーフレームワーク内の画像からシーケンスへの生成タスクとして扱っています。しかし、これらのアプローチにはいくつかの課題があります:1) 全体的な言語コンテクストの欠如により、現在のデコードステップを超えた情報利用が制限される;2) ARデコード過程での誤差蓄積;3) デコード速度が遅い。これらの問題に対処するため、本論文では初めてHMER向けに新しいボトムアップ非自己回帰モデリングアプローチであるNAMERを開発しました。NAMERは、ビジュアルアウェアトークナイザー(VAT)と並列グラフデコーダー(PGD)で構成されています。まず、VATは可視シンボルと局所関係を粗いレベルでトークン化します。その後、PGDはすべてのトークンを精緻化し、並列的に接続性を確立します。これにより、包括的な視覚的および言語的コンテクストを利用できます。CROHME 2014/2016/2019およびHME100Kデータセットを用いた実験結果によると、NAMERは現行の最先端(SOTA)手法よりもExpRateで1.93%/2.35%/1.49%/0.62%高い性能を示すだけでなく、デコード時間と全体的なFPSにおいてそれぞれ13.7倍と6.7倍の大幅な高速化を達成しています。これはNAMERの有効性と効率性を証明しています。