2ヶ月前
MIM-Refiner: 中間事前学習表現からのコントラスティブ学習の強化
Alkin, Benedikt ; Miklautz, Lukas ; Hochreiter, Sepp ; Brandstetter, Johannes

要約
MIM(Masked Image Modeling)-Refinerの導入について紹介します。これは、事前学習されたMIMモデルに対する対照的学習の強化です。MIM-Refinerは、MIMモデル内の強力な表現が一般的に中間層に存在するという洞察に基づいています。これにより、異なる中間層に接続された複数の対照的ヘッドを活用します。各ヘッドでは、修正された最近傍点目的関数が意味的なクラスタを構築し、意味情報を捉えることで下流タスクの性能を向上させます。これには、既製品設定と微調整設定が含まれます。精製プロセスは短く単純ですが、非常に効果的です。わずか数エポックで、MIMモデルの特徴量を劣るものから最先端の既製品特徴量へと改善します。ViT-Hをdata2vec 2.0を使用してImageNet-1Kで事前学習した後、線形プロービング(84.7%)と少ショット分類において新しい最先端を達成しました。また、ImageNet-1Kで事前学習されたモデルの中でも最高峰の性能を発揮しています。MIM-Refinerは効率的にMIMとID目的関数の利点を組み合わせており、少ショット分類、長尾分布分類、クラスタリング、セマンティックセグメンテーションなど様々なベンチマークにおいて以前の最先端SSLモデルに対して有利な結果を示しています。