2ヶ月前
自己教師ありビジョン変換器における新規特性の出現
Mathilde Caron; Hugo Touvron; Ishan Misra; Hervé Jégou; Julien Mairal; Piotr Bojanowski; Armand Joulin

要約
本論文では、自己監督学習が Vision Transformer (ViT) に、畳み込みネットワーク (convnets) と比較して特筆すべき新しい特性をもたらすかどうかを検討します。自己監督手法がこのアーキテクチャに特に適応しやすいという事実を超えて、以下の観察を行いました。第一に、自己監督 ViT の特徴量には画像の意味分割に関する明示的な情報が含まれており、これは監督 ViT や convnets では明確に現れない傾向があります。第二に、これらの特徴量は優れた k-NN 分類器でもあり、小さな ViT を使用することで ImageNet で 78.3% の top-1 精度を達成しました。また、本研究ではモーメンタムエンコーダー、マルチクロップ訓練、および ViTs での小パッチの使用の重要性を強調しています。これらの知見に基づいて、ラベルを使用しない自己蒸留の一形態である単純な自己監督手法 DINO を提案します。DINO と ViTs の相乗効果を示すために、線形評価において ViT-Base を使用して ImageNet で 80.1% の top-1 精度を達成しました。