2ヶ月前

NAMER: 手書き数式認識のための非自己回帰モデル

Liu, Chenyu ; Pan, Jia ; Hu, Jinshui ; Yin, Baocai ; Yin, Bing ; Chen, Mingjun ; Liu, Cong ; Du, Jun ; Liu, Qingfeng

要約

最近、手書き数式認識（HMER）は、文書理解における多様な応用のため、パターン認識分野で大きな注目を集めています。現在の手法は通常、HMERを自己回帰（AR）エンコーダー-デコーダーフレームワーク内の画像からシーケンスへの生成タスクとして扱っています。しかし、これらのアプローチにはいくつかの課題があります：1) 全体的な言語コンテクストの欠如により、現在のデコードステップを超えた情報利用が制限される；2) ARデコード過程での誤差蓄積；3) デコード速度が遅い。これらの問題に対処するため、本論文では初めてHMER向けに新しいボトムアップ非自己回帰モデリングアプローチであるNAMERを開発しました。NAMERは、ビジュアルアウェアトークナイザー（VAT）と並列グラフデコーダー（PGD）で構成されています。まず、VATは可視シンボルと局所関係を粗いレベルでトークン化します。その後、PGDはすべてのトークンを精緻化し、並列的に接続性を確立します。これにより、包括的な視覚的および言語的コンテクストを利用できます。CROHME 2014/2016/2019およびHME100Kデータセットを用いた実験結果によると、NAMERは現行の最先端（SOTA）手法よりもExpRateで1.93%/2.35%/1.49%/0.62%高い性能を示すだけでなく、デコード時間と全体的なFPSにおいてそれぞれ13.7倍と6.7倍の大幅な高速化を達成しています。これはNAMERの有効性と効率性を証明しています。