Selbstüberwachendes Lernen ist robuster gegenüber Datensatzungleichgewicht

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ist eine skalierbare Methode zur Entwicklung allgemeiner visueller Darstellungen, da es ohne Labels lernen kann. Dennoch weisen große, im Wild lebende, unlabeled-Datensätze oft eine langgezogene Label-Verteilung auf, bei der wir wenig über das Verhalten von SSL wissen. In dieser Arbeit untersuchen wir systematisch das selbstüberwachte Lernen unter Datensatzungleichgewicht. Erstens stellen wir anhand umfangreicher Experimente fest, dass bereits vorhandene, kommerziell nutzbare selbstüberwachte Darstellungen gegenüber Klassenungleichgewicht robuster sind als überwachte Darstellungen. Der Leistungsunterschied zwischen ausgewogenem und ungleichgewichtigem Vortrainieren mit SSL ist gegenüber dem Unterschied bei überwachtem Lernen signifikant geringer, sowohl für in-domain- als auch insbesondere für out-of-domain-Evaluation, unabhängig von der Stichprobengröße. Zweitens analysieren wir die Robustheit von SSL und vermuten, dass SSL reichhaltigere Merkmale aus häufigen Daten erlernt: Es könnte Merkmale lernen, die zwar nicht direkt mit den Labels korrelieren, aber übertragbar sind und somit die Klassifikation seltener Klassen sowie nachgeschaltete Aufgaben unterstützen. Im Gegensatz dazu besteht bei überwachtem Lernen kein Anreiz, Merkmale aus häufigen Beispielen zu erlernen, die für die Labels irrelevant sind. Diese Hypothese bestätigen wir durch halb-synthetische Experimente und theoretische Analysen in einer vereinfachten Problemstellung. Drittens leiten wir auf Basis dieser theoretischen Erkenntnisse eine neuartige, gewichtete Regularisierungstechnik ab, die die Qualität selbstüberwachter Darstellungen auf ungleichgewichtigen Datensätzen konsistent verbessert und dabei mehrere Bewertungskriterien erfüllt. Damit schließt sich die kleine Leistungslücke zwischen ausgewogenen und ungleichgewichtigen Datensätzen mit derselben Anzahl an Beispielen.