HyperAIHyperAI
il y a 2 mois

Apprentissage de la représentation vidéo par codage prédictif dense

Tengda Han; Weidi Xie; Andrew Zisserman
Apprentissage de la représentation vidéo par codage prédictif dense
Résumé

L'objectif de cet article est d'apprendre des plongements spatio-temporels de manière auto-supervisée à partir de vidéos, adaptés à la reconnaissance d'actions humaines. Nous apportons trois contributions : Premièrement, nous introduisons le cadre de la Codage Prédicatif Dense (DPC) pour l'apprentissage auto-supervisé de représentations sur des vidéos. Ce cadre apprend une encodage dense de blocs spatio-temporels en prédiction récurrente des représentations futures ; Deuxièmement, nous proposons un schéma d'entraînement par curriculum pour prédire plus loin dans le futur avec progressivement moins de contexte temporel. Cela encourage le modèle à n'encoder que les signaux spatio-temporels qui varient lentement, conduisant ainsi à des représentations sémantiques ; Troisièmement, nous évaluons cette approche en entraînant d'abord le modèle DPC sur le jeu de données Kinetics-400 avec un apprentissage auto-supervisé, puis en affinant la représentation sur une tâche downstream, c'est-à-dire la reconnaissance d'actions. Avec un seul flux (seulement RGB), les représentations pré-entraînées DPC atteignent des performances auto-supervisées record sur UCF101 (75,7 % d'exactitude au premier rang) et HMDB51 (35,7 % d'exactitude au premier rang), surpassant toutes les méthodes d'apprentissage précédentes avec une marge significative et se rapprochant des performances d'un modèle pré-entraîné sur ImageNet.

Apprentissage de la représentation vidéo par codage prédictif dense | Articles de recherche récents | HyperAI