18日前

画像1枚は16×16単語に値する:大規模な画像認識におけるTransformer

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
画像1枚は16×16単語に値する:大規模な画像認識におけるTransformer
要約

トランスフォーマー構造は自然言語処理タスクにおいてデファクトスタンダードとして定着しているが、コンピュータビジョンへの応用は依然として限定的である。視覚領域では、アテンション機構は畳み込みニューラルネットワーク(CNN)と組み合わせて用いられるか、CNNの一部の構成要素を置き換える形で利用されるにとどまっているが、その全体構造は維持されたままである。本研究では、このようなCNNへの依存は必ずしも必要ではなく、画像パッチのシーケンスに直接トランスフォーマーを適用した純粋なトランスフォーマーでも、画像分類タスクにおいて優れた性能を発揮できることを示す。大規模なデータで事前学習し、複数の中規模または小規模な画像認識ベンチマーク(ImageNet、CIFAR-100、VTABなど)に転移学習を適用した場合、Vision Transformer(ViT)は最先端の畳み込みネットワークと比較して優れた結果を達成しつつ、訓練に要する計算リソースを大幅に削減できることが明らかになった。

画像1枚は16×16単語に値する:大規模な画像認識におけるTransformer | 最新論文 | HyperAI超神経