HyperAIHyperAI

Command Palette

Search for a command to run...

NAMER: 手書き数式認識のための非自己回帰モデル

Chenyu Liu Jia Pan Jinshui Hu Baocai Yin Bing Yin Mingjun Chen Cong Liu Jun Du Qingfeng Liu

概要

最近、手書き数式認識(HMER)は、文書理解における多様な応用のため、パターン認識分野で大きな注目を集めています。現在の手法は通常、HMERを自己回帰(AR)エンコーダー-デコーダーフレームワーク内の画像からシーケンスへの生成タスクとして扱っています。しかし、これらのアプローチにはいくつかの課題があります:1) 全体的な言語コンテクストの欠如により、現在のデコードステップを超えた情報利用が制限される;2) ARデコード過程での誤差蓄積;3) デコード速度が遅い。これらの問題に対処するため、本論文では初めてHMER向けに新しいボトムアップ非自己回帰モデリングアプローチであるNAMERを開発しました。NAMERは、ビジュアルアウェアトークナイザー(VAT)と並列グラフデコーダー(PGD)で構成されています。まず、VATは可視シンボルと局所関係を粗いレベルでトークン化します。その後、PGDはすべてのトークンを精緻化し、並列的に接続性を確立します。これにより、包括的な視覚的および言語的コンテクストを利用できます。CROHME 2014/2016/2019およびHME100Kデータセットを用いた実験結果によると、NAMERは現行の最先端(SOTA)手法よりもExpRateで1.93%/2.35%/1.49%/0.62%高い性能を示すだけでなく、デコード時間と全体的なFPSにおいてそれぞれ13.7倍と6.7倍の大幅な高速化を達成しています。これはNAMERの有効性と効率性を証明しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています