17日前

DeiT III:ViTの逆襲

Hugo Touvron, Matthieu Cord, Hervé Jégou
DeiT III:ViTの逆襲
要約

視覚変換器(Vision Transformer:ViT)は、複数のコンピュータビジョンタスクに適応可能なシンプルなニューラルアーキテクチャである。近年のアーキテクチャが入力データや特定のタスクに関する事前知識(アーキテクチャ的バイアス)を組み込んでいるのに対し、ViTはそのような内蔵されたアーキテクチャ的バイアスが限定的である。近年の研究では、ViTが自己教師付き事前学習(self-supervised pre-training)により大きな恩恵を受けることが示されており、特にBeiTのようなBERT型の事前学習手法が有効であることが明らかになっている。本論文では、ViTの教師あり学習(supervised training)を再検討する。我々の手法は、ResNet-50の訓練に用いられた手法を基盤としつつ、それを簡素化したものである。特に、自己教師付き学習の実践に近い、わずか3つのデータ拡張(data-augmentation)で構成される新しいシンプルな拡張手順を導入している。ImageNet-1kにおける画像分類(ImageNet-21kでの事前学習有無を含む)、転移学習、およびセマンティックセグメンテーションの評価において、従来の完全教師あり学習手法と比較して、本手法は大幅な性能向上を達成した。また、教師あり学習によって訓練された本ViTの性能は、近年の他の先進的アーキテクチャと同等であることが明らかになった。これらの結果は、ViTを対象とする最近の自己教師付きアプローチの評価に、より優れたベースラインを提供するものである。