8ヶ月前

畳み込みニューラルネットワーク

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

概要

我々はVision Transformer (ViT) を手書き文字認識に適用することを探究しています。この分野におけるラベル付きデータの限られた入手可能性は、ViTのみに依存して高性能を達成する上で課題となっています。従来のトランスフォーマーベースのモデルでは、外部データや大規模データセットでの広範な事前学習が必要でした。この制約に対処するために、標準的なトランスフォーマーのエンコーダ部分のみを使用するデータ効率の高いViT手法を提案します。特徴量抽出に元々のパッチ埋め込みではなくConvolutional Neural Network (CNN) を組み込むことと、Sharpness-Aware Minimization (SAM) 最適化手法を用いてモデルがより平らな最小値に収束し、顕著な改善をもたらすことを確認しました。さらに、特徴マップ内の相互接続された特徴量をマスキングするspan mask技術を導入することで、有効な正則化器として機能することが示されました。経験的に、IAMやREAD2016のような小規模データセットにおいて、我々の手法は従来のCNNベースのモデルと競合できる性能を発揮しました。また、現在最大規模である19,830行の訓練テキストラインを持つLAMデータセットにおいて新しい基準を樹立しました。コードは公開されており、以下のURLからアクセスできます: https://github.com/YutingLi0606/HTR-VT.

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

概要

我々はVision Transformer (ViT) を手書き文字認識に適用することを探究しています。この分野におけるラベル付きデータの限られた入手可能性は、ViTのみに依存して高性能を達成する上で課題となっています。従来のトランスフォーマーベースのモデルでは、外部データや大規模データセットでの広範な事前学習が必要でした。この制約に対処するために、標準的なトランスフォーマーのエンコーダ部分のみを使用するデータ効率の高いViT手法を提案します。特徴量抽出に元々のパッチ埋め込みではなくConvolutional Neural Network (CNN) を組み込むことと、Sharpness-Aware Minimization (SAM) 最適化手法を用いてモデルがより平らな最小値に収束し、顕著な改善をもたらすことを確認しました。さらに、特徴マップ内の相互接続された特徴量をマスキングするspan mask技術を導入することで、有効な正則化器として機能することが示されました。経験的に、IAMやREAD2016のような小規模データセットにおいて、我々の手法は従来のCNNベースのモデルと競合できる性能を発揮しました。また、現在最大規模である19,830行の訓練テキストラインを持つLAMデータセットにおいて新しい基準を樹立しました。コードは公開されており、以下のURLからアクセスできます: https://github.com/YutingLi0606/HTR-VT.

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています