
自己教師あり学習において、多スケールの特徴量は極めて重要視されるものの、これまでほとんど研究されていない。なぜなら、さまざまな下流タスク(例えば、汎用的分類と細分化分類)は、異なるあるいは多様なスケールの特徴量(例えば、細粒度または粗粒度、あるいはそれらの混合)を必要とするためである。本研究では、初めて多スケール視覚特徴量を明示的に学習できる有効な多スケール自己教師あり学習フレームワークであるMUlti-Granular Self-supervised learning(Mugs)を提案する。Mugsは以下の3つの補完的なスケール監督機構を備える:1)インスタンス判別監督(IDS)、2)新規の局所群判別監督(LGDS)、および3)群判別監督(GDS)。IDSは、異なるインスタンスを区別することで、インスタンスレベルの細粒度特徴量を学習する。LGDSは、画像とその近隣領域の特徴量を統合して局所群特徴量を生成し、同一画像の異なるクロップから得られる局所群特徴量を引き寄せ、他のものから遠ざける。これにより、局所近傍に対する追加的なアライメントを通じてIDSのインスタンスレベル監督を補完し、異なる局所群を別々に散らばらせる効果により判別性を向上させる。その結果、局所群レベルでの高次元の細粒度特徴量の学習を支援する。最後に、類似した局所群がランダムに散らばるのを防ぐために、GDSは類似するサンプルを近づけ、類似する局所群を引き寄せることで、(意味的)群レベルでの粗粒度特徴量を捉える。このようにして、Mugsは単一スケール特徴量(例えば、対照学習におけるインスタンスレベルの細粒度特徴量)よりも、多様な下流タスクにおいてより高い汎化性能を発揮する3つのスケール特徴量を同時に捉えることができる。ImageNet-1Kでの事前学習のみを用いて、MugsはImageNet-1Kにおける線形プローブ精度で82.1%という新たなSOTAを達成し、従来のSOTAを1.1%上回った。また、転移学習、検出、セグメンテーションなどの他のタスクにおいても、既存のSOTAを上回る性能を示した。