HyperAIHyperAI

Command Palette

Search for a command to run...

自己教師ありビジョン変換器における新規特性の出現

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

概要

本論文では、自己監督学習が Vision Transformer (ViT) に、畳み込みネットワーク (convnets) と比較して特筆すべき新しい特性をもたらすかどうかを検討します。自己監督手法がこのアーキテクチャに特に適応しやすいという事実を超えて、以下の観察を行いました。第一に、自己監督 ViT の特徴量には画像の意味分割に関する明示的な情報が含まれており、これは監督 ViT や convnets では明確に現れない傾向があります。第二に、これらの特徴量は優れた k-NN 分類器でもあり、小さな ViT を使用することで ImageNet で 78.3% の top-1 精度を達成しました。また、本研究ではモーメンタムエンコーダー、マルチクロップ訓練、および ViTs での小パッチの使用の重要性を強調しています。これらの知見に基づいて、ラベルを使用しない自己蒸留の一形態である単純な自己監督手法 DINO を提案します。DINO と ViTs の相乗効果を示すために、線形評価において ViT-Base を使用して ImageNet で 80.1% の top-1 精度を達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています