Command Palette
Search for a command to run...
Apprentissage de la représentation vidéo par codage prédictif dense
Apprentissage de la représentation vidéo par codage prédictif dense
Tengda Han Weidi Xie Andrew Zisserman
Résumé
L'objectif de cet article est d'apprendre des plongements spatio-temporels de manière auto-supervisée à partir de vidéos, adaptés à la reconnaissance d'actions humaines. Nous apportons trois contributions : Premièrement, nous introduisons le cadre de la Codage Prédicatif Dense (DPC) pour l'apprentissage auto-supervisé de représentations sur des vidéos. Ce cadre apprend une encodage dense de blocs spatio-temporels en prédiction récurrente des représentations futures ; Deuxièmement, nous proposons un schéma d'entraînement par curriculum pour prédire plus loin dans le futur avec progressivement moins de contexte temporel. Cela encourage le modèle à n'encoder que les signaux spatio-temporels qui varient lentement, conduisant ainsi à des représentations sémantiques ; Troisièmement, nous évaluons cette approche en entraînant d'abord le modèle DPC sur le jeu de données Kinetics-400 avec un apprentissage auto-supervisé, puis en affinant la représentation sur une tâche downstream, c'est-à-dire la reconnaissance d'actions. Avec un seul flux (seulement RGB), les représentations pré-entraînées DPC atteignent des performances auto-supervisées record sur UCF101 (75,7 % d'exactitude au premier rang) et HMDB51 (35,7 % d'exactitude au premier rang), surpassant toutes les méthodes d'apprentissage précédentes avec une marge significative et se rapprochant des performances d'un modèle pré-entraîné sur ImageNet.