HyperAIHyperAI

Command Palette

Search for a command to run...

AdaMAE: Adaptive Masking für effiziente räumlich-zeitliche Lernverfahren mit Masked Autoencoders

Wele Gedara Chaminda Bandara Naman Patel Ali Gholami Mehdi Nikkhah Motilal Agrawal Vishal M. Patel

Zusammenfassung

Masked Autoencoders (MAEs) erlernen generalisierbare Darstellungen für Bilder, Text, Audio, Videos usw., indem sie maskierte Eingabedaten aus den Tokens sichtbarer Daten rekonstruieren. Aktuelle MAE-Ansätze für Videos basieren auf zufälligen Maskierungsstrategien, die auf Patch-, Tube- oder Frame-Ebene operieren, um diese Tokens auszuwählen. In dieser Arbeit präsentieren wir AdaMAE, eine adaptive Maskierungsstrategie für MAEs, die end-to-end trainierbar ist. Unser adaptiver Maskierungsansatz wählt sichtbare Tokens basierend auf dem semantischen Kontext mithilfe eines ergänzenden Sampling-Netzwerks aus. Dieses Netzwerk schätzt eine kategoriale Verteilung über spacetime-gepatchte Tokens. Tokens, die die erwartete Rekonstruktionsfehler erhöhen, werden belohnt und als sichtbare Tokens ausgewählt, was durch den Policy-Gradient-Algorithmus aus dem Bereich des Verstärkungslernens motiviert ist. Wir zeigen, dass AdaMAE mehr Tokens aus Bereichen mit hoher spatiotemporaler Information auswählt, wodurch es möglich wird, bis zu 95 % der Tokens zu maskieren, was zu geringeren Speicheranforderungen und schnellerer Vortrainingsphase führt. Wir führen Ablationsstudien auf dem Something-Something v2 (SSv2)-Datensatz durch, um die Wirksamkeit unseres adaptiven Sampling-Ansatzes zu demonstrieren, und berichten über state-of-the-art-Ergebnisse von 70,0 % und 81,7 % Top-1-Accuracy bei der Aktionklassifizierung auf den Datensätzen SSv2 und Kinetics-400 mit einem ViT-Base-Backbone und 800 Vortrainings-Epochen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AdaMAE: Adaptive Masking für effiziente räumlich-zeitliche Lernverfahren mit Masked Autoencoders | Paper | HyperAI