HyperAIHyperAI

Command Palette

Search for a command to run...

HTR-VT: 手書きテキスト認識にビジョントランスフォーマーを用いた手法

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

概要

我々はVision Transformer (ViT) を手書き文字認識に適用することを探究しています。この分野におけるラベル付きデータの限られた入手可能性は、ViTのみに依存して高性能を達成する上で課題となっています。従来のトランスフォーマーベースのモデルでは、外部データや大規模データセットでの広範な事前学習が必要でした。この制約に対処するために、標準的なトランスフォーマーのエンコーダ部分のみを使用するデータ効率の高いViT手法を提案します。特徴量抽出に元々のパッチ埋め込みではなくConvolutional Neural Network (CNN) を組み込むことと、Sharpness-Aware Minimization (SAM) 最適化手法を用いてモデルがより平らな最小値に収束し、顕著な改善をもたらすことを確認しました。さらに、特徴マップ内の相互接続された特徴量をマスキングするspan mask技術を導入することで、有効な正則化器として機能することが示されました。経験的に、IAMやREAD2016のような小規模データセットにおいて、我々の手法は従来のCNNベースのモデルと競合できる性能を発揮しました。また、現在最大規模である19,830行の訓練テキストラインを持つLAMデータセットにおいて新しい基準を樹立しました。コードは公開されており、以下のURLからアクセスできます: https://github.com/YutingLi0606/HTR-VT.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています