HyperAIHyperAI
il y a 2 mois

VideoMAE : Les autoencodeurs masqués sont des apprenants efficaces en termes de données pour le pré-entraînement vidéo auto-supervisé.

Zhan Tong; Yibing Song; Jue Wang; Limin Wang
VideoMAE : Les autoencodeurs masqués sont des apprenants efficaces en termes de données pour le pré-entraînement vidéo auto-supervisé.
Résumé

L'entraînement préalable de transformateurs vidéo sur des ensembles de données d'une très grande échelle est généralement nécessaire pour obtenir des performances de premier plan sur des ensembles de données relativement petits. Dans cet article, nous montrons que les autoencodeurs masqués vidéo (VideoMAE) sont des apprenants efficaces en termes de données pour l'entraînement préalable auto-supervisé vidéo (SSVP). Nous nous inspirons du récent ImageMAE et proposons un masquage personnalisé de tubes vidéo avec un taux extrêmement élevé. Cette conception simple rend la reconstruction vidéo une tâche d'auto-supervision plus complexe, ce qui encourage l'extraction de représentations vidéo plus efficaces au cours de ce processus d'entraînement préalable. Nous obtenons trois résultats importants concernant le SSVP : (1) Un taux de masquage extrêmement élevé (c'est-à-dire 90 % à 95 %) permet toujours d'obtenir des performances favorables avec VideoMAE. Le contenu vidéo redondant temporellement permet un taux de masquage plus élevé que celui des images. (2) VideoMAE obtient des résultats impressionnants sur des ensembles de données très petits (c'est-à-dire environ 3 000 à 4 000 vidéos) sans utiliser aucune donnée supplémentaire. (3) VideoMAE démontre que la qualité des données est plus importante que la quantité pour le SSVP. Le décalage entre les ensembles de données utilisés pour l'entraînement préalable et ceux cibles est un problème important. Remarquablement, notre VideoMAE avec le ViT standard peut atteindre 87,4 % sur Kinetics-400, 75,4 % sur Something-Something V2, 91,3 % sur UCF101 et 62,6 % sur HMDB51, sans utiliser aucune donnée supplémentaire. Le code est disponible à l'adresse suivante : https://github.com/MCG-NJU/VideoMAE.

VideoMAE : Les autoencodeurs masqués sont des apprenants efficaces en termes de données pour le pré-entraînement vidéo auto-supervisé. | Articles de recherche récents | HyperAI