特徴蒸留を用いた微調整における対照学習は、マスク画像モデリングと競合する

マスク画像モデリング(MIM)は、微調整(fine-tuning)性能が極めて優れているため、従来広く用いられていた画像分類やインスタンス対比学習、画像・テキストアライメントといった事前学習アプローチを大きく凌駕しています。本論文では、これらの従来手法の微調整性能の低さは、単純な後処理としての特徴量蒸留(Feature Distillation, FD)を施すことで顕著に改善可能であることを示します。特徴量蒸留は、従来の特徴量を、MIMによって得られる特徴量と同様に望ましい性質を持つ新しい特徴量に変換します。これらの性質を総称して「最適化親和性(optimization friendliness)」と呼び、注意機構および最適化プロセスに関する診断ツールを用いて同定・分析しています。これらの性質を備えた新しい特徴量は、強力な微調整性能を示します。具体的には、対照的自己教師学習(contrastive self-supervised learning)手法が、最先端のMIMアルゴリズムと同等の微調整性能を達成するようになります。また、CLIPモデルの微調整性能も顕著に向上し、CLIP ViT-LモデルではImageNet-1K分類タスクにおいてトップ1精度89.0%を達成しました。さらに、30億パラメータを持つSwinV2-Gモデルにおいては、ADE20KセマンティックセグメンテーションとCOCOオブジェクト検出の両タスクで、それぞれ+1.5 mIoU / +1.1 mAPの向上(最終値:61.4 mIoU / 64.2 mAP)を実現し、いずれのベンチマークでも新たな記録を樹立しました。最も重要な点として、本研究は今後の研究が、学習された特徴量の汎用性およびスケーラビリティに注力できる道を開くものであり、最適化親和性については容易に強化可能であるため、事前にその問題に囚われることなく済むようになります。コードは https://github.com/SwinTransformer/Feature-Distillation にて公開予定です。