
要約
Transformerベースのエンコーダー-デコーダー構造は、最近、手書き数式認識において著しい進歩を遂げています。しかし、Transformerモデルはまだカバレッジ問題に悩まされており、その表現認識率(ExpRate)はRNNモデルよりも劣っています。カバレッジ情報は、過去のステップでのアライメント情報を記録するもので、RNNモデルにおいて効果的であることが証明されています。本論文では、カバレッジ情報をTransformerデコーダーに導入したモデルCoMERを提案します。特に、新しいアテンション洗練モジュール(Attention Refinement Module: ARM)を提案し、過去のアライメント情報を用いてアテンション重みを洗練することにより、並列性を損なうことなく性能向上を目指します。さらに、カバレッジ情報を極限まで活用するために、自己カバレッジとクロスカバレッジを提案します。これらは現在の層と過去の層からのアライメント情報を利用します。実験結果によると、CoMERは現行の最先端モデルと比較してExpRateを0.61%/2.09%/1.59%向上させ、CROHME 2014/2016/2019テストセットでは59.33%/59.81%/62.97%の認識率を達成しました。