Mugs: Ein mehrschaliges selbstüberwachtes Lernframework

In der selbstüberwachten Lernmethode sind mehrschalige Merkmale stark gewünscht, werden jedoch selten untersucht, da verschiedene nachgeschaltete Aufgaben (z. B. allgemeine und feinkörnige Klassifikation) oft unterschiedliche oder mehrschalige Merkmale erfordern, beispielsweise feinkörnige oder grobkörnige Merkmale oder deren Kombination. In dieser Arbeit stellen wir erstmals einen effektiven MUlti-Granular Self-supervised Learning (Mugs)-Framework vor, um mehrschalige visuelle Merkmale explizit zu lernen. Mugs verfügt über drei ergänzende granulare Supervisionen: 1) eine Instanzunterscheidungssupervision (IDS), 2) eine neuartige lokale-Gruppen-Unterscheidungssupervision (LGDS) und 3) eine Gruppen-Unterscheidungssupervision (GDS). IDS unterscheidet verschiedene Instanzen, um instanzbezogene feinkörnige Merkmale zu erlernen. LGDS aggregiert Merkmale eines Bildes und seiner Nachbarn zu einem lokalen-Gruppen-Merkmal und zieht lokale-Gruppen-Merkmale aus verschiedenen Ausschnitten desselben Bildes zusammen, während sie diese von anderen trennt. Dadurch bietet sie ergänzende Instanzsupervision für IDS durch eine zusätzliche Ausrichtung auf lokale Nachbarn und streut verschiedene lokale Gruppen getrennt, um die Unterscheidbarkeit zu erhöhen. Dadurch unterstützt sie die Erkennung hochwertiger feinkörniger Merkmale auf lokaler-Gruppen-Ebene. Schließlich verhindert GDS, dass ähnliche lokale Gruppen willkürlich oder zu weit auseinandergezogen werden, indem sie ähnliche Proben näher zusammenzieht und somit ähnliche lokale Gruppen zusammenführt, wodurch grobkörnige Merkmale auf (semantischer) Gruppenebene erfasst werden. Insgesamt kann Mugs drei verschiedene Granularitäten von Merkmalen erfassen, die in der Regel eine höhere Allgemeingültigkeit bei diversen nachgeschalteten Aufgaben aufweisen als einzigartige Granularitäten, beispielsweise instanzbezogene feinkörnige Merkmale im Gegensatz zu kontrastivem Lernen. Durch eine alleinige Vortrainingsphase auf ImageNet-1K erreicht Mugs eine neue SOTA-Linearpunktzahl von 82,1 % auf ImageNet-1K und verbessert die vorherige SOTA um 1,1 %. Zudem übertrifft Mugs die SOTA-Werte bei anderen Aufgaben, beispielsweise Transferlernen, Objektdetektion und Segmentierung.