HyperAIHyperAI
vor 3 Monaten

Kontrastives Lernen konkurriert mit Masked Image Modeling bei der Feinabstimmung durch Merkmalsdistillation

Yixuan Wei, Han Hu, Zhenda Xie, Zheng Zhang, Yue Cao, Jianmin Bao, Dong Chen, Baining Guo
Kontrastives Lernen konkurriert mit Masked Image Modeling bei der Feinabstimmung durch Merkmalsdistillation
Abstract

Masked Image Modeling (MIM) erzielt durch die Lernung von Repräsentationen bemerkenswert gute Fine-Tuning-Leistungen und übertrifft damit früher verbreitete Vortrainingsansätze wie Bildklassifikation, Instanz-Kontrastivität und Bild-Text-Ausrichtung. In diesem Artikel zeigen wir, dass die unterdurchschnittliche Fine-Tuning-Leistung dieser Vortrainingsansätze erheblich durch eine einfache Nachverarbeitung in Form von Feature-Distillation (FD) verbessert werden kann. Die Feature-Distillation wandelt die alten Repräsentationen in neue Repräsentationen um, die einige wünschenswerte Eigenschaften aufweisen – ähnlich wie jene, die durch MIM erzeugt werden. Diese Eigenschaften, die wir gemeinsam als „Optimierungsfreundlichkeit“ bezeichnen, werden mithilfe einer Reihe von auf Aufmerksamkeit und Optimierung basierenden Diagnosetools identifiziert und analysiert. Durch diese Eigenschaften zeigen die neuen Repräsentationen eine starke Fine-Tuning-Leistung. Insbesondere werden kontrastive selbstüberwachte Lernmethoden in Bezug auf das Fine-Tuning mit den State-of-the-Art-Masked-Image-Modeling-(MIM)-Algorithmen gleichwertig. Auch die Fine-Tuning-Leistung von CLIP-Modellen wird erheblich verbessert, wobei ein CLIP ViT-L-Modell eine Top-1-Accuracy von 89,0 % bei der ImageNet-1K-Klassifikation erreicht. Auf dem 3-Milliarden-Parameter-SwinV2-G-Modell steigt die Fine-Tuning-Accuracy um +1,5 mIoU bzw. +1,1 mAP auf 61,4 mIoU bei der ADE20K-Semantischen Segmentierung und 64,2 mAP bei der COCO-Objekterkennung, wodurch neue Rekorde auf beiden Benchmarks erzielt werden. Wichtiger noch: Unsere Arbeit bietet einen Weg für zukünftige Forschung, sich stärker auf die Allgemeingültigkeit und Skalierbarkeit der gelernten Repräsentationen zu konzentrieren, da die Optimierungsfreundlichkeit relativ einfach nachträglich verbessert werden kann. Der Quellcode wird unter https://github.com/SwinTransformer/Feature-Distillation verfügbar sein.