
要約
私たちは、マルチビューとマルチ表現(MV-MR)に基づく新しい自己監督学習および知識蒸留の手法を提案します。MV-MRは、拡張されたビューと非拡張されたビューから得られる学習可能な埋め込み間の依存関係の最大化、および拡張されたビューからの学習可能な埋め込みと非拡張されたビューからの複数の非学習可能な表現間の依存関係の最大化を組み合わせています。本研究では、提案手法が効率的な自己監督分類とモデルに依存しない知識蒸留に使用できることを示しています。他の自己監督技術とは異なり、当手法はコントラスティブ学習、クラスタリング、または勾配停止を使用しません。MV-MRは汎用的なフレームワークであり、画像のマルチ表現を正則化項として使用することで、学習可能な埋め込みに対する制約を導入することができます。この観点から、知識蒸留はそのような正則化の一例として考えられます。MV-MRは、コントラスティブ学習やクラスタリングを使用しない手法の中でもSTL10およびImageNet-1Kデータセットで最先端の性能を達成しています。また、CLIP ViTモデルに基づく提案手法による知識蒸留で事前学習した低複雑度のResNet50モデルがSTL10線形評価で最先端の性能を達成することも示しています。コードは以下のURLから入手できます: https://github.com/vkinakh/mv-mr