HyperAIHyperAI

Command Palette

Search for a command to run...

Distillation Vidéo Masquée : Réflexion sur la Modélisation de Caractéristiques Masquées pour l'Apprentissage Auto-supervisé de Représentations Vidéo

Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Lu Yuan Yu-Gang Jiang

Résumé

Grâce au masquage visuel, l'apprentissage de représentations vidéo auto-supervisé a connu des progrès remarquables. Cependant, les méthodes existantes se concentrent sur l'apprentissage de représentations à partir de zéro en reconstruisant des caractéristiques de bas niveau telles que les valeurs RGB des pixels bruts. Dans cet article, nous proposons le masquage et la distillation vidéo (MVD), un cadre simple mais efficace en deux étapes pour le masquage de caractéristiques dans l'apprentissage de représentations vidéo : premièrement, nous pré-entraînons un modèle d'image (ou de vidéo) en récupérant les caractéristiques de bas niveau des patchs masqués, puis nous utilisons ces caractéristiques comme cibles pour le masquage de caractéristiques. Pour le choix des modèles enseignants, nous observons que les élèves formés par des enseignants vidéo performe mieux sur des tâches vidéo temporellement complexes, tandis que les enseignants image transfèrent des représentations spatiales plus robustes pour des tâches vidéo spatialement complexes. L'analyse visuelle indique également que différents enseignants produisent différents schémas d'apprentissage chez les élèves. Guidés par cette observation, nous concevons une méthode d'enseignement conjoint spatial-temporel pour MVD. Plus précisément, nous distillons les modèles élèves à partir à la fois d'enseignants vidéo et d'enseignants image par le biais du masquage de caractéristiques. De nombreux résultats expérimentaux montrent que les transformateurs vidéo pré-entraînés avec l'enseignement conjoint spatial-temporel surpassent les modèles distillés avec un seul enseignant sur une multitude de jeux de données vidéo. Notre MVD avec ViT standard atteint des performances inédites comparées aux méthodes supervisées ou auto-supervisées précédentes sur plusieurs tâches descendantes vidéo difficiles. Par exemple, avec le modèle ViT-Large, notre MVD atteint 86,4 % et 76,7 % d'exactitude Top-1 sur Kinetics-400 et Something-Something-v2, surpassant VideoMAE respectivement de 1,2 % et 2,4 %. Lorsque le modèle ViT-Huge plus grand est utilisé, MVD atteint la performance inédite avec 77,3 % d'exactitude Top-1 sur Something-Something-v2 et 41,1 mAP sur AVA v2.2. Le code sera disponible à l'adresse \url{https://github.com/ruiwang2021/mvd}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp