HyperAIHyperAI

Command Palette

Search for a command to run...

Asymmetrische maskierte Distillation zur Vortrainierung kleiner Grundmodelle

Zhiyu Zhao Bingkun Huang Sen Xing Gangshan Wu Yu Qiao Limin Wang

Zusammenfassung

Selbstüberwachte Grundmodelle haben in der Computer Vision aufgrund des Vortrainierungsparadigmas der maskierten Autoencoding erhebliches Potenzial gezeigt. Die Skalierung ist ein entscheidender Faktor, der die Leistung dieser Grundmodelle beeinflusst. Allerdings führen große Grundmodelle oft zu hohen Rechenkosten. In dieser Arbeit konzentrieren wir uns auf das Vortrainieren relativ kleiner Vision Transformer-Modelle, die effizient auf nachgeschaltete Aufgaben angepasst werden können. Konkret lassen wir uns von der Wissensdistanzierung im Bereich der Modellkompression inspirieren und stellen einen neuen asymmetrischen maskierten Distanzierung (AMD)-Rahmen für das Vortrainieren kleiner Modelle mit Autoencoding vor. Der Kern von AMD besteht in der Entwicklung einer asymmetrischen Maskierungsstrategie, bei der das Lehrermodell mit einer geringeren Maskierungsrate mehr Kontextinformationen sehen kann, während das Schülermodell weiterhin eine hohe Maskierungsrate beibehält. Wir entwerfen maßgeschneiderte, mehrschichtige Merkmalsausrichtungen zwischen dem Lehrer- und dem Schüler-Encoder, um das Vortrainieren des Schüler-MAE zu regularisieren. Um die Wirksamkeit und Vielseitigkeit von AMD zu demonstrieren, wenden wir es sowohl auf ImageMAE als auch auf VideoMAE an, um relativ kleine ViT-Modelle vorzutrainieren. AMD erreicht eine Klassifikationsgenauigkeit von 84,6 % auf IN1K mit dem ViT-B-Modell. Zudem erzielt AMD auf dem Something-in-Something V2-Datensatz eine Klassifikationsgenauigkeit von 73,3 % mit dem ViT-B-Modell – eine Verbesserung um 3,7 % gegenüber dem ursprünglichen ViT-B-Modell aus VideoMAE. Wir übertragen auch AMD-vortrainierte Modelle auf nachgeschaltete Aufgaben und erreichen dabei konsistente Leistungsverbesserungen gegenüber dem ursprünglichen maskierten Autoencoding. Der Quellcode und die Modelle sind unter https://github.com/MCG-NJU/AMD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Asymmetrische maskierte Distillation zur Vortrainierung kleiner Grundmodelle | Paper | HyperAI