vor 18 Tagen

AdaMAE: Adaptive Masking für effiziente räumlich-zeitliche Lernverfahren mit Masked Autoencoders

Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel

Abstract

Masked Autoencoders (MAEs) erlernen generalisierbare Darstellungen für Bilder, Text, Audio, Videos usw., indem sie maskierte Eingabedaten aus den Tokens sichtbarer Daten rekonstruieren. Aktuelle MAE-Ansätze für Videos basieren auf zufälligen Maskierungsstrategien, die auf Patch-, Tube- oder Frame-Ebene operieren, um diese Tokens auszuwählen. In dieser Arbeit präsentieren wir AdaMAE, eine adaptive Maskierungsstrategie für MAEs, die end-to-end trainierbar ist. Unser adaptiver Maskierungsansatz wählt sichtbare Tokens basierend auf dem semantischen Kontext mithilfe eines ergänzenden Sampling-Netzwerks aus. Dieses Netzwerk schätzt eine kategoriale Verteilung über spacetime-gepatchte Tokens. Tokens, die die erwartete Rekonstruktionsfehler erhöhen, werden belohnt und als sichtbare Tokens ausgewählt, was durch den Policy-Gradient-Algorithmus aus dem Bereich des Verstärkungslernens motiviert ist. Wir zeigen, dass AdaMAE mehr Tokens aus Bereichen mit hoher spatiotemporaler Information auswählt, wodurch es möglich wird, bis zu 95 % der Tokens zu maskieren, was zu geringeren Speicheranforderungen und schnellerer Vortrainingsphase führt. Wir führen Ablationsstudien auf dem Something-Something v2 (SSv2)-Datensatz durch, um die Wirksamkeit unseres adaptiven Sampling-Ansatzes zu demonstrieren, und berichten über state-of-the-art-Ergebnisse von 70,0 % und 81,7 % Top-1-Accuracy bei der Aktionklassifizierung auf den Datensätzen SSv2 und Kinetics-400 mit einem ViT-Base-Backbone und 800 Vortrainings-Epochen.