HyperAIHyperAI

Command Palette

Search for a command to run...

小規模なデータセット上で画像のスケールを最小限に抑えて軽量なビジョンTransformerを事前学習する

Jen Hong Tan

概要

軽量なVision Transformer(ViT)は、小さな画像解像度で小さなデータセットに対して、ResNetのような畳み込みニューラルネットワーク(CNN)と同等あるいはそれ以上の性能を達成できるだろうか?本報告では、最小限の画像スケーリングでマスクされた自己符号化器(masked auto-encoder)技術を用いた事前学習により、純粋なViTが優れた性能を発揮できることを示している。CIFAR-10およびCIFAR-100データセットにおける実験では、パラメータ数が365万未満、乗算累加演算(MAC)回数が0.27G未満のViTモデルを用いており、これらは「軽量モデル」として分類される。従来のアプローチとは異なり、本手法はCIFAR-10およびCIFAR-100の画像を大幅に拡大せずに、同程度の軽量Transformerベースアーキテクチャの中で最先端の性能を達成している。この成果は、本モデルが小さなデータセットの処理においてのみならず、元の画像スケールに近い状態で効果的に画像を処理できるという、高い効率性を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
小規模なデータセット上で画像のスケールを最小限に抑えて軽量なビジョンTransformerを事前学習する | 記事 | HyperAI超神経