2ヶ月前
カウントとHMERの融合:手書き数学表現認識のためのカウント対応ネットワーク
Li, Bohan ; Yuan, Ye ; Liang, Dingkang ; Liu, Xiao ; Ji, Zhilong ; Bai, Jinfeng ; Liu, Wenyu ; Bai, Xiang

要約
最近、多くの手書き数式認識(HMER)手法がエンコーダー-デコーダーネットワークを採用しており、このネットワークはアテンションメカニズムを使用して、数式画像から直接マークアップシーケンスを予測します。しかし、このような手法は複雑な構造を持つ数式を正確に読み取るか、長いマークアップシーケンスを生成することができない場合があります。これは、書字スタイルや空間配置の大きな変動によりアテンション結果がしばしば不正確になるためです。この問題を緩和するために、私たちはHMER用の非伝統的なネットワークであるCounting-Aware Network (CAN)を提案します。このネットワークはHMERとシンボルカウントという2つのタスクを共同で最適化します。具体的には、シンボルレベルの位置注釈なしで各シンボルクラスの数を予測できる弱教師ありカウントモジュールを設計し、それを典型的なアテンションベースのエンコーダー-デコーダーモデルに組み込みました。HMERのベンチマークデータセットでの実験結果は、共同最適化とカウント結果がエンコーダー-デコーダーモデルの予測誤差の修正に有益であることを確認しています。また、CANは一貫して最先端の手法よりも優れた性能を示しています。特に、HMER用のエンコーダー-デコーダーモデルと比較して、提案されたカウントモジュールによって引き起こされる追加時間コストは微少です。ソースコードはhttps://github.com/LBH1024/CAN で公開されています。