17日前

小規模なデータセット上で画像のスケールを最小限に抑えて軽量なビジョンTransformerを事前学習する

Jen Hong Tan
小規模なデータセット上で画像のスケールを最小限に抑えて軽量なビジョンTransformerを事前学習する
要約

軽量なVision Transformer(ViT)は、小さな画像解像度で小さなデータセットに対して、ResNetのような畳み込みニューラルネットワーク(CNN)と同等あるいはそれ以上の性能を達成できるだろうか?本報告では、最小限の画像スケーリングでマスクされた自己符号化器(masked auto-encoder)技術を用いた事前学習により、純粋なViTが優れた性能を発揮できることを示している。CIFAR-10およびCIFAR-100データセットにおける実験では、パラメータ数が365万未満、乗算累加演算(MAC)回数が0.27G未満のViTモデルを用いており、これらは「軽量モデル」として分類される。従来のアプローチとは異なり、本手法はCIFAR-10およびCIFAR-100の画像を大幅に拡大せずに、同程度の軽量Transformerベースアーキテクチャの中で最先端の性能を達成している。この成果は、本モデルが小さなデータセットの処理においてのみならず、元の画像スケールに近い状態で効果的に画像を処理できるという、高い効率性を示している。