HyperAIHyperAI
vor 17 Tagen

Asymmetrische maskierte Distillation zur Vortrainierung kleiner Grundmodelle

Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang
Asymmetrische maskierte Distillation zur Vortrainierung kleiner Grundmodelle
Abstract

Selbstüberwachte Grundmodelle haben in der Computer Vision aufgrund des Vortrainierungsparadigmas der maskierten Autoencoding erhebliches Potenzial gezeigt. Die Skalierung ist ein entscheidender Faktor, der die Leistung dieser Grundmodelle beeinflusst. Allerdings führen große Grundmodelle oft zu hohen Rechenkosten. In dieser Arbeit konzentrieren wir uns auf das Vortrainieren relativ kleiner Vision Transformer-Modelle, die effizient auf nachgeschaltete Aufgaben angepasst werden können. Konkret lassen wir uns von der Wissensdistanzierung im Bereich der Modellkompression inspirieren und stellen einen neuen asymmetrischen maskierten Distanzierung (AMD)-Rahmen für das Vortrainieren kleiner Modelle mit Autoencoding vor. Der Kern von AMD besteht in der Entwicklung einer asymmetrischen Maskierungsstrategie, bei der das Lehrermodell mit einer geringeren Maskierungsrate mehr Kontextinformationen sehen kann, während das Schülermodell weiterhin eine hohe Maskierungsrate beibehält. Wir entwerfen maßgeschneiderte, mehrschichtige Merkmalsausrichtungen zwischen dem Lehrer- und dem Schüler-Encoder, um das Vortrainieren des Schüler-MAE zu regularisieren. Um die Wirksamkeit und Vielseitigkeit von AMD zu demonstrieren, wenden wir es sowohl auf ImageMAE als auch auf VideoMAE an, um relativ kleine ViT-Modelle vorzutrainieren. AMD erreicht eine Klassifikationsgenauigkeit von 84,6 % auf IN1K mit dem ViT-B-Modell. Zudem erzielt AMD auf dem Something-in-Something V2-Datensatz eine Klassifikationsgenauigkeit von 73,3 % mit dem ViT-B-Modell – eine Verbesserung um 3,7 % gegenüber dem ursprünglichen ViT-B-Modell aus VideoMAE. Wir übertragen auch AMD-vortrainierte Modelle auf nachgeschaltete Aufgaben und erreichen dabei konsistente Leistungsverbesserungen gegenüber dem ursprünglichen maskierten Autoencoding. Der Quellcode und die Modelle sind unter https://github.com/MCG-NJU/AMD verfügbar.