2ヶ月前

HTR-VT: 手書きテキスト認識にビジョントランスフォーマーを用いた手法

Li, Yuting ; Chen, Dexiong ; Tang, Tinglong ; Shen, Xi
HTR-VT: 手書きテキスト認識にビジョントランスフォーマーを用いた手法
要約

我々はVision Transformer (ViT) を手書き文字認識に適用することを探究しています。この分野におけるラベル付きデータの限られた入手可能性は、ViTのみに依存して高性能を達成する上で課題となっています。従来のトランスフォーマーベースのモデルでは、外部データや大規模データセットでの広範な事前学習が必要でした。この制約に対処するために、標準的なトランスフォーマーのエンコーダ部分のみを使用するデータ効率の高いViT手法を提案します。特徴量抽出に元々のパッチ埋め込みではなくConvolutional Neural Network (CNN) を組み込むことと、Sharpness-Aware Minimization (SAM) 最適化手法を用いてモデルがより平らな最小値に収束し、顕著な改善をもたらすことを確認しました。さらに、特徴マップ内の相互接続された特徴量をマスキングするspan mask技術を導入することで、有効な正則化器として機能することが示されました。経験的に、IAMやREAD2016のような小規模データセットにおいて、我々の手法は従来のCNNベースのモデルと競合できる性能を発揮しました。また、現在最大規模である19,830行の訓練テキストラインを持つLAMデータセットにおいて新しい基準を樹立しました。コードは公開されており、以下のURLからアクセスできます: https://github.com/YutingLi0606/HTR-VT.

HTR-VT: 手書きテキスト認識にビジョントランスフォーマーを用いた手法 | 最新論文 | HyperAI超神経