Codage du Mouvement Masqué pour l'Apprentissage Non Supervisé de Représentations Vidéo

L'apprentissage d'une représentation vidéo discriminante à partir de vidéos non étiquetées est un défi important mais crucial pour l'analyse vidéo. Les dernières tentatives visent à apprendre un modèle de représentation en prédissant les contenus d'apparence dans les régions masquées. Cependant, le simple masquage et la récupération des contenus d'apparence peuvent ne pas être suffisants pour modéliser les indices temporels, car ces contenus peuvent être facilement reconstruits à partir d'un seul cadre. Pour surmonter cette limitation, nous présentons le Masquage et Codage du Mouvement (MME), une nouvelle paradigme de pré-entraînement qui reconstruit à la fois les informations d'apparence et de mouvement afin d'explorer les indices temporels. Dans le cadre du MME, nous nous concentrons sur la résolution de deux défis critiques pour améliorer les performances de la représentation : 1) comment représenter efficacement le mouvement potentiellement à long terme sur plusieurs cadres ; et 2) comment obtenir des indices temporels fins à partir de vidéos échantillonnées de manière éparses. Inspirés par le fait que l'être humain est capable de reconnaître une action en suivant les changements de position et de forme des objets, nous proposons de reconstruire une trajectoire de mouvement qui représente ces deux types de changements dans les régions masquées. De plus, étant donné l'entrée vidéo éparsement échantillonnée, nous imposons au modèle de reconstruire des trajectoires de mouvement densément dans les dimensions spatiales et temporelles. Pré-entraîné avec notre paradigme MME, le modèle est capable d'anticiper des détails de mouvement à long terme et fins. Le code source est disponible sur https://github.com/XinyuSun/MME.