Command Palette
Search for a command to run...
Skip-Clip : Apprentissage de représentations spatiotemporelles auto-supervisé par classement d'ordre de clip futur
Skip-Clip : Apprentissage de représentations spatiotemporelles auto-supervisé par classement d'ordre de clip futur
Alaaeldin El-Nouby Shuangfei Zhai Graham W. Taylor Joshua M. Susskind
Résumé
Les réseaux neuronaux profonds nécessitent la collecte et l'annotation de grandes quantités de données pour être formés avec succès. Afin d'alléger le goulot d'étranglement lié à l'annotation, nous proposons une nouvelle approche d'apprentissage de représentation auto-supervisée pour les caractéristiques spatio-temporelles extraites des vidéos. Nous introduisons Skip-Clip, une méthode qui exploite la cohérence temporelle dans les vidéos en formant un modèle profond pour le classement de l'ordre futur des clips, conditionné à un clip contextuel, comme objectif substitutif pour la prédiction du futur vidéo. Nous démontrons que les caractéristiques apprises par notre méthode sont généralisables et se transfèrent efficacement aux tâches en aval. Pour la reconnaissance d'actions sur le jeu de données UCF101, nous obtenons une amélioration de 51,8 % par rapport à l'initialisation aléatoire et surpassons les modèles initialisés à partir des paramètres élargis d'ImageNet. Skip-Clip atteint également des résultats comparables aux méthodes d'auto-supervision les plus avancées (state-of-the-art).