HyperAIHyperAI

Command Palette

Search for a command to run...

EVEREST : Autoencodeur masqué efficace pour vidéo en supprimant les jetons spatiotemporels redondants

Sunil Hwang Jaehong Yoon Youngwan Lee Sung Ju Hwang

Résumé

Les approches de Masked Video Autoencoder (MVA) ont démontré leur potentiel en surpassant significativement les méthodes précédentes d'apprentissage de représentations vidéo. Cependant, elles gaspillent une quantité excessive de calculs et de mémoire pour prédire des jetons/cadres non informatifs en raison de stratégies de masquage aléatoire (par exemple, plus de 16 nœuds avec 128 GPU NVIDIA A100). Pour résoudre ce problème, nous exploitons la densité inégale d'information parmi les patches dans les vidéos et proposons EVEREST, une approche MVA surprenamment efficace pour l'apprentissage de représentations vidéo qui identifie les jetons contenant des caractéristiques de mouvement riches et élimine ceux non informatifs lors du pré-entraînement et du réglage fin. Nous présentons également une stratégie de sélection intensive d'information des cadres qui permet au modèle de se concentrer sur les cadres informatifs et causaux avec un minimum de redondance. Notre méthode réduit considérablement les exigences en termes de calcul et de mémoire pour le MVA, permettant le pré-entraînement et le réglage fin sur une seule machine avec 8 GPU tout en atteignant des performances comparables à celles des baselines gourmandes en calculs et en mémoire sur plusieurs benchmarks ainsi que sur l'ensemble de données Ego4D non curaté. Nous espérons que notre travail contribuera à réduire les obstacles à la recherche ultérieure sur la compréhension vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
EVEREST : Autoencodeur masqué efficace pour vidéo en supprimant les jetons spatiotemporels redondants | Articles | HyperAI