Große selbstüberwachte Modelle sind leistungsstarke halbüberwachte Lerner

Ein Paradigma zum Lernen aus wenigen gelabelten Beispielen unter optimaler Nutzung einer großen Menge an ungelabelten Daten ist die unsupervisierte Vortrainierung gefolgt von einer supervisierten Feinabstimmung. Obwohl dieses Paradigma ungelabelte Daten auf eine aufgabenunabhängige Weise nutzt – im Gegensatz zu gängigen Ansätzen der halbüberwachten Lernmethoden im Bereich der Computer Vision – zeigen wir, dass es überraschend effektiv für halbüberwachte Lernaufgaben auf ImageNet ist. Ein zentraler Bestandteil unseres Ansatzes ist die Verwendung großer (tiefer und breiter) Netzwerke sowohl während der Vortrainierung als auch der Feinabstimmung. Wir beobachten, dass je weniger Labels verfügbar sind, desto stärker profitiert dieser Ansatz (die aufgabenunabhängige Nutzung ungelabelter Daten) von einem größeren Netzwerk. Nach der Feinabstimmung kann das große Netzwerk durch erneute Nutzung der ungelabelten Beispiele, diesmal jedoch auf eine aufgabenbezogene Weise, weiter verbessert und in ein deutlich kleineres Netzwerk mit nur geringem Verlust an Klassifizierungspräzision komprimiert werden. Der vorgeschlagene Algorithmus für halbüberwachtes Lernen lässt sich in drei Schritte zusammenfassen: unsupervisierte Vortrainierung eines großen ResNet-Modells mittels SimCLRv2, supervisierte Feinabstimmung anhand nur weniger gelabelter Beispiele und anschließende Kompression (Distillation) unter Verwendung ungelabelter Daten zur Verfeinerung und Übertragung spezifischer Aufgabenwissen. Mit nur 1 % der Labels (≤13 gelabelte Bilder pro Klasse) erreicht ResNet-50 mit diesem Verfahren eine Top-1-Accuracy von 73,9 % auf ImageNet – eine Verbesserung der Label-Effizienz um das Zehnfache gegenüber dem vorherigen Stand der Technik. Bei 10 % der Labels erzielt ResNet-50 mit unserem Ansatz eine Top-1-Accuracy von 77,5 %, was die Leistung von Standard-supervisierter Training mit allen Labels übertrifft.