EVEREST : Autoencodeur masqué efficace pour vidéo en supprimant les jetons spatiotemporels redondants

Les approches de Masked Video Autoencoder (MVA) ont démontré leur potentiel en surpassant significativement les méthodes précédentes d'apprentissage de représentations vidéo. Cependant, elles gaspillent une quantité excessive de calculs et de mémoire pour prédire des jetons/cadres non informatifs en raison de stratégies de masquage aléatoire (par exemple, plus de 16 nœuds avec 128 GPU NVIDIA A100). Pour résoudre ce problème, nous exploitons la densité inégale d'information parmi les patches dans les vidéos et proposons EVEREST, une approche MVA surprenamment efficace pour l'apprentissage de représentations vidéo qui identifie les jetons contenant des caractéristiques de mouvement riches et élimine ceux non informatifs lors du pré-entraînement et du réglage fin. Nous présentons également une stratégie de sélection intensive d'information des cadres qui permet au modèle de se concentrer sur les cadres informatifs et causaux avec un minimum de redondance. Notre méthode réduit considérablement les exigences en termes de calcul et de mémoire pour le MVA, permettant le pré-entraînement et le réglage fin sur une seule machine avec 8 GPU tout en atteignant des performances comparables à celles des baselines gourmandes en calculs et en mémoire sur plusieurs benchmarks ainsi que sur l'ensemble de données Ego4D non curaté. Nous espérons que notre travail contribuera à réduire les obstacles à la recherche ultérieure sur la compréhension vidéo.