HyperAIHyperAI

Command Palette

Search for a command to run...

CoMER: 変換器ベースの手書き数式認識におけるカバレッジのモデリング

Wenqi Zhao Liangcai Gao

概要

Transformerベースのエンコーダー-デコーダー構造は、最近、手書き数式認識において著しい進歩を遂げています。しかし、Transformerモデルはまだカバレッジ問題に悩まされており、その表現認識率(ExpRate)はRNNモデルよりも劣っています。カバレッジ情報は、過去のステップでのアライメント情報を記録するもので、RNNモデルにおいて効果的であることが証明されています。本論文では、カバレッジ情報をTransformerデコーダーに導入したモデルCoMERを提案します。特に、新しいアテンション洗練モジュール(Attention Refinement Module: ARM)を提案し、過去のアライメント情報を用いてアテンション重みを洗練することにより、並列性を損なうことなく性能向上を目指します。さらに、カバレッジ情報を極限まで活用するために、自己カバレッジとクロスカバレッジを提案します。これらは現在の層と過去の層からのアライメント情報を利用します。実験結果によると、CoMERは現行の最先端モデルと比較してExpRateを0.61%/2.09%/1.59%向上させ、CROHME 2014/2016/2019テストセットでは59.33%/59.81%/62.97%の認識率を達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CoMER: 変換器ベースの手書き数式認識におけるカバレッジのモデリング | 記事 | HyperAI超神経