HyperAIHyperAI
il y a 18 jours

AdaMAE : Masquage adaptatif pour un apprentissage spatio-temporel efficace avec des autoencodeurs masqués

Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel
AdaMAE : Masquage adaptatif pour un apprentissage spatio-temporel efficace avec des autoencodeurs masqués
Résumé

Les Autoencodeurs Masqués (MAE) apprennent des représentations généralisables pour des données d’image, de texte, d’audio, de vidéo, etc., en reconstruisant les données masquées à partir des tokens des données visibles. Les approches actuelles de MAE pour la vidéo s’appuient sur des stratégies aléatoires de masquage basées sur des patches, des tubes ou des trames pour sélectionner ces tokens. Ce papier propose AdaMAE, une stratégie de masquage adaptative pour les MAE, entièrement entraînable en bout à bout. Notre stratégie de masquage adaptative sélectionne les tokens visibles en fonction du contexte sémantique à l’aide d’un réseau auxiliaire de sélection. Ce réseau estime une distribution catégorielle sur les tokens spatio-temporels de patch. Les tokens qui augmentent l’erreur de reconstruction attendue sont récompensés et sélectionnés comme tokens visibles, inspiré par l’algorithme de gradient de politique en apprentissage par renforcement. Nous montrons que AdaMAE sélectionne davantage de tokens provenant des régions à forte information spatio-temporelle, permettant ainsi de masquer jusqu’à 95 % des tokens, ce qui réduit considérablement les besoins en mémoire et accélère le pré-entraînement. Nous menons des études d’ablation sur le jeu de données Something-Something v2 (SSv2) pour démontrer l’efficacité de notre approche de sélection adaptative, et rapportons des résultats de pointe de 70,0 % et 81,7 % en précision top-1 sur les jeux de données de classification d’actions SSv2 et Kinetics-400, respectivement, avec un modèle ViT-Base et 800 époques de pré-entraînement.