HyperAIHyperAI
vor 7 Tagen

Untersuchung von Zielrepräsentationen für Masked Autoencoder

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji
Untersuchung von Zielrepräsentationen für Masked Autoencoder
Abstract

Maskierte Autoencoder sind zu populären Trainingsparadigmen für selbstüberwachtes visuelles Repräsentationslernen geworden. Diese Modelle maskieren zufällig einen Teil der Eingabe und rekonstruieren den maskierten Bereich basierend auf den Zielrepräsentationen. In dieser Arbeit zeigen wir zunächst, dass eine sorgfältige Auswahl der Zielrepräsentation für die Entwicklung guter Repräsentationen nicht erforderlich ist, da verschiedene Zielrepräsentationen tendenziell ähnliche Modelle erzeugen. Aufgrund dieser Beobachtung schlagen wir eine mehrstufige maskierte Distillationsschleife vor und verwenden ein zufällig initialisiertes Modell als Lehrer, wodurch wir hochkapazitive Modelle effektiv trainieren können, ohne aufwendig Zielrepräsentationen zu entwerfen. Interessanterweise untersuchen wir weiterhin den Einsatz von Lehrern mit größerer Kapazität und erreichen dadurch abgeleitete Schülermodelle mit bemerkenswerter Übertragungsfähigkeit. Auf verschiedenen Aufgaben wie Klassifikation, Transferlernen, Objekterkennung und semantische Segmentierung übertrifft die vorgeschlagene Methode zur maskierten Wissensdistillation mit bootstrap-Unterstützten Lehrern (dBOT) bisherige selbstüberwachte Ansätze signifikant. Wir hoffen, dass unsere Erkenntnisse sowie die vorgestellte Methode dazu beitragen, die Rolle der Zielrepräsentationen bei der Vortrainierung maskierter Autoencoder neu zu überdenken. Der Quellcode und vortrainierte Modelle sind öffentlich verfügbar unter https://github.com/liuxingbin/dbot.

Untersuchung von Zielrepräsentationen für Masked Autoencoder | Neueste Forschungsarbeiten | HyperAI