Selbstüberwachtes Lernen durch Schätzung von Zwillingsklassenverteilungen

Wir stellen TWIST vor, eine einfache und theoretisch erklärbare Methode des selbstüberwachten Repräsentationslernens, die große nicht beschriftete Datensätze auf ein Ende-zu-Ende-Prinzip hin klassifiziert. Wir verwenden ein siamesisches Netzwerk, das durch eine Softmax-Operation abgeschlossen wird, um zwei erweiterte Bilder zu doppelter Klassifikationsverteilung zu verarbeiten. Ohne Überwachung zwingen wir die Klassifikationsverteilungen verschiedener Erweiterungen zur Konsistenz. Einfach die Divergenz zwischen den Erweiterungen zu minimieren würde jedoch zusammenfallende Lösungen verursachen, d.h., dieselbe Klassenwahrscheinlichkeitsverteilung für alle Bilder auszugeben. In diesem Fall bleibt keine Information über das Eingangsbild erhalten. Um dieses Problem zu lösen, schlagen wir vor, die gegenseitige Information zwischen dem Eingangsbild und den Klassenprognosen zu maximieren. Insbesondere minimieren wir die Entropie der Verteilung für jedes einzelne Beispiel, um die Klassenprognose für jedes Beispiel sicherzustellen, und maximieren wir die Entropie der mittleren Verteilung, um die Prognosen verschiedener Beispiele vielfältig zu gestalten. Auf diese Weise kann TWIST natürlicherweise zusammenfallende Lösungen vermeiden, ohne spezielle Designs wie asymmetrische Netze, Stop-Gradient-Operation oder Momentum-Encoder anzuwenden. Als Ergebnis übertrifft TWIST den aktuellen Stand der Technik in einer breiten Palette von Aufgaben. Besonders bei halbüberwachtem Lernen zeigt TWIST überraschend gute Leistungen und erreicht mit 1 % ImageNet-Beschriftungen unter Verwendung eines ResNet-50 als Backbone eine Top-1-Akkuratesse von 61,2 %, was eine absolute Verbesserung von 6,2 % gegenüber früheren besten Ergebnissen darstellt. Der Code und vortrainierte Modelle sind unter folgendem Link verfügbar: https://github.com/bytedance/TWIST