MEAL V2: Steigerung der Top-1-Accuracy von Vanilla ResNet-50 auf über 80 % auf ImageNet ohne Tricks

Wir stellen einen einfachen, aber effektiven Distillation-Rahmenwerk vor, der in der Lage ist, die herkömmliche ResNet-50 ohne zusätzliche Tricks auf über 80 % Top-1-Accuracy auf ImageNet zu steigern. Dieses Framework wird durch die Analyse der bestehenden Probleme im Klassifikationssystem konstruiert und vereinfacht die Basismethode „Ensemble Knowledge Distillation“ mittels Diskriminatoren durch folgende Maßnahmen: (1) Verwendung der Similaritätsverlustfunktion und des Diskriminators ausschließlich auf den finalen Ausgaben; (2) Nutzung des Mittelwerts der Softmax-Wahrscheinlichkeiten aller Lehrmodelle als stärkere Supervision. Interessanterweise werden drei neue Perspektiven für die Distillation vorgestellt: (1) Gewichtsabnahme (weight decay) kann abgeschwächt oder sogar vollständig entfernt werden, da auch die Soft-Labels eine regulierende Wirkung besitzen; (2) Eine gute Initialisierung der Schülermodelle ist entscheidend; (3) Ein-Hot- oder harte Labels sind im Distillation-Prozess nicht zwingend erforderlich, sofern die Gewichte gut initialisiert sind. Wir zeigen, dass dieses unkomplizierte Framework state-of-the-art Ergebnisse erzielt, ohne auf übliche Techniken wie Architekturmodifikation, zusätzliche Trainingsdaten außerhalb von ImageNet, AutoAug/RandAug, kosinusförmige Lernraten, Mixup/CutMix-Training, Label Smoothing usw. zurückzugreifen. Unser Ansatz erreicht eine Top-1-Accuracy von 80,67 % auf ImageNet mit einem einzelnen Crop-Größe von 224×224 und einer herkömmlichen ResNet-50, wodurch die bisherigen State-of-the-Art-Methoden unter derselben Netzwerkarchitektur deutlich übertroffen werden. Unser Ergebnis kann als ein starker Baseline für Knowledge Distillation angesehen werden, und soweit uns bekannt ist, ist dies zudem die erste Methode, die in der Lage ist, die herkömmliche ResNet-50 ohne Architekturmodifikation oder zusätzliche Trainingsdaten auf über 80 % auf ImageNet zu steigern. Bei der kleineren ResNet-18 steigert unser Distillation-Rahmenwerk die Genauigkeit konsequent von 69,76 % auf 73,19 %, was ihre enorme praktische Relevanz für reale Anwendungen unterstreicht. Unsere Code- und Modell-Implementierungen sind unter folgender URL verfügbar: https://github.com/szq0214/MEAL-V2.