HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachendes Lernen ist robuster gegenüber Datensatzungleichgewicht

Hong Liu Jeff Z. HaoChen Adrien Gaidon Tengyu Ma

Zusammenfassung

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ist eine skalierbare Methode zur Entwicklung allgemeiner visueller Darstellungen, da es ohne Labels lernen kann. Dennoch weisen große, im Wild lebende, unlabeled-Datensätze oft eine langgezogene Label-Verteilung auf, bei der wir wenig über das Verhalten von SSL wissen. In dieser Arbeit untersuchen wir systematisch das selbstüberwachte Lernen unter Datensatzungleichgewicht. Erstens stellen wir anhand umfangreicher Experimente fest, dass bereits vorhandene, kommerziell nutzbare selbstüberwachte Darstellungen gegenüber Klassenungleichgewicht robuster sind als überwachte Darstellungen. Der Leistungsunterschied zwischen ausgewogenem und ungleichgewichtigem Vortrainieren mit SSL ist gegenüber dem Unterschied bei überwachtem Lernen signifikant geringer, sowohl für in-domain- als auch insbesondere für out-of-domain-Evaluation, unabhängig von der Stichprobengröße. Zweitens analysieren wir die Robustheit von SSL und vermuten, dass SSL reichhaltigere Merkmale aus häufigen Daten erlernt: Es könnte Merkmale lernen, die zwar nicht direkt mit den Labels korrelieren, aber übertragbar sind und somit die Klassifikation seltener Klassen sowie nachgeschaltete Aufgaben unterstützen. Im Gegensatz dazu besteht bei überwachtem Lernen kein Anreiz, Merkmale aus häufigen Beispielen zu erlernen, die für die Labels irrelevant sind. Diese Hypothese bestätigen wir durch halb-synthetische Experimente und theoretische Analysen in einer vereinfachten Problemstellung. Drittens leiten wir auf Basis dieser theoretischen Erkenntnisse eine neuartige, gewichtete Regularisierungstechnik ab, die die Qualität selbstüberwachter Darstellungen auf ungleichgewichtigen Datensätzen konsistent verbessert und dabei mehrere Bewertungskriterien erfüllt. Damit schließt sich die kleine Leistungslücke zwischen ausgewogenen und ungleichgewichtigen Datensätzen mit derselben Anzahl an Beispielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp