AdaMAE: Adaptive Masking für effiziente räumlich-zeitliche Lernverfahren mit Masked Autoencoders

Masked Autoencoders (MAEs) erlernen generalisierbare Darstellungen für Bilder, Text, Audio, Videos usw., indem sie maskierte Eingabedaten aus den Tokens sichtbarer Daten rekonstruieren. Aktuelle MAE-Ansätze für Videos basieren auf zufälligen Maskierungsstrategien, die auf Patch-, Tube- oder Frame-Ebene operieren, um diese Tokens auszuwählen. In dieser Arbeit präsentieren wir AdaMAE, eine adaptive Maskierungsstrategie für MAEs, die end-to-end trainierbar ist. Unser adaptiver Maskierungsansatz wählt sichtbare Tokens basierend auf dem semantischen Kontext mithilfe eines ergänzenden Sampling-Netzwerks aus. Dieses Netzwerk schätzt eine kategoriale Verteilung über spacetime-gepatchte Tokens. Tokens, die die erwartete Rekonstruktionsfehler erhöhen, werden belohnt und als sichtbare Tokens ausgewählt, was durch den Policy-Gradient-Algorithmus aus dem Bereich des Verstärkungslernens motiviert ist. Wir zeigen, dass AdaMAE mehr Tokens aus Bereichen mit hoher spatiotemporaler Information auswählt, wodurch es möglich wird, bis zu 95 % der Tokens zu maskieren, was zu geringeren Speicheranforderungen und schnellerer Vortrainingsphase führt. Wir führen Ablationsstudien auf dem Something-Something v2 (SSv2)-Datensatz durch, um die Wirksamkeit unseres adaptiven Sampling-Ansatzes zu demonstrieren, und berichten über state-of-the-art-Ergebnisse von 70,0 % und 81,7 % Top-1-Accuracy bei der Aktionklassifizierung auf den Datensätzen SSv2 und Kinetics-400 mit einem ViT-Base-Backbone und 800 Vortrainings-Epochen.