Extension des Autoencodeurs Masqués Vidéo à 128 trames

La compréhension vidéo a connu des progrès significatifs récemment, grâce à l’émergence de modèles fondamentaux vidéo qui affichent de fortes performances, notamment grâce à des objectifs d’apprentissage auto-supervisé. Parmi ces approches, les Autoencodeurs Masqués (Masked Autoencoders, MAE) se sont imposés comme une architecture privilégiée. Toutefois, la majorité des travaux antérieurs exploitant l’entraînement préalable MAE se sont concentrés sur des représentations vidéo relativement courtes (16 ou 32 cadres), principalement en raison de contraintes matérielles liées à la mémoire et au calcul, qui augmentent de manière dense et coûteuse avec la longueur de la séquence vidéo, notamment en raison de la décodage par attention auto-associative intensif en mémoire. Une stratégie naturelle pour surmonter ces limites consiste à sous-échantillonner les tokens à reconstruire pendant le décodage (ou masquage du décodeur). Dans ce travail, nous proposons une stratégie efficace de priorisation des tokens, permettant d’entraîner sur des séquences vidéo plus longues (128 cadres) et obtenant de meilleurs résultats que les stratégies classiques de masquage aléatoire ou uniforme. Le cœur de notre approche repose sur une stratégie de masquage adaptatif du décodeur, qui privilégie les tokens les plus importants et utilise des tokens quantifiés comme objectifs de reconstruction. Notre stratégie adaptative s’appuie sur un tokeniseur basé sur MAGVIT, capable d’apprendre conjointement les tokens et leur priorité. Nous validons nos choix architecturaux à travers des ablations exhaustives, observant une amélioration significative des performances des encodeurs vidéo longue (128 cadres) par rapport à leurs homologues courts (32 cadres). Grâce à notre stratégie d’autoencodeur masqué pour vidéos longues (LVMAE), nous surpassons l’état de l’art sur Diving48 de 3,9 points et sur la classification des verbes dans EPIC-Kitchens-100 de 2,5 points, tout en utilisant une architecture centrale simple et une pré-entraînement vidéo uniquement (contrairement à certaines approches antérieures qui nécessitent des millions de paires vidéo-texte étiquetées ou des encodeurs spécialisés).