PosFormer: 複雑な手書き数式を認識するための位置フォレストトランスフォーマー

手書き数式認識(HMER)は、デジタル教育や自動化されたオフィスなど、人間と機械の相互作用の場面で広範な応用が見られます。最近では、このタスクを直接的にLaTeXシーケンスを予測することにより解決するために、エンコーダー-デコーダー構造を持つシーケンスベースモデルが一般的に採用されています。しかし、これらの手法はLaTeXによって提供される文法規則を暗黙的に学習するだけであり、複雑な構造的な関係や多様な筆記体スタイルのために、シンボル間の位置や階層的な関係を正確に説明できないことがあります。この課題を克服するために、私たちはHMER用の位置フォレストトランスフォーマー(PosFormer)を提案します。このモデルは表現認識と位置認識という2つのタスクを同時最適化することで、位置情報を意識したシンボル特徴表現学習を明示的に可能にします。具体的には、まず数学的表現をフォレスト構造としてモデル化し、シンボル間の相対的な位置関係を解析するための位置フォレストを設計しました。追加の注釈なしで、各シンボルにはその相対的な空間的位置を示す位置識別子が割り当てられます。次に、シーケンスベースのデコーダー構造においてHMERに対する注意を正確に捉えるために、暗黙的な注意訂正モジュールを提案しました。多数の実験結果によりPosFormerの優位性が確認されており、単一行CROHME 2014/2016/2019データセットではそれぞれ2.03% / 1.22% / 2.00% の改善率が得られました。また、複数行M2Eデータセットと複雑なMNEデータセットではそれぞれ1.83% および4.62% の改善率が得られており、追加の遅延や計算コストなしで一貫して最先端の手法を超える性能を発揮しています。コードは https://github.com/SJTU-DeepVisionLab/PosFormer から入手可能です。