HyperAIHyperAI
il y a 2 mois

Apprentissage de représentations vidéo contrastives spatiotemporelles

Rui Qian; Tianjian Meng; Boqing Gong; Ming-Hsuan Yang; Huisheng Wang; Serge Belongie; Yin Cui
Apprentissage de représentations vidéo contrastives spatiotemporelles
Résumé

Nous présentons une méthode d'apprentissage de représentation vidéo contrastive (CVRL) auto-supervisée pour apprendre des représentations visuelles spatio-temporelles à partir de vidéos non étiquetées. Nos représentations sont apprises en utilisant une perte contrastive, où deux clips augmentés provenant de la même courte vidéo sont rapprochés dans l'espace d'embedding, tandis que les clips provenant de différentes vidéos sont éloignés. Nous examinons ce qui constitue de bonnes augmentations de données pour l'apprentissage auto-supervisé de vidéos et constatons que les informations spatiales et temporelles sont essentielles. Nous concevons soigneusement des augmentations de données impliquant des indices spatiaux et temporels. Plus précisément, nous proposons une méthode d'augmentation spatiale cohérente temporellement pour imposer des augmentations spatiales fortes à chaque image du vidéo tout en maintenant la cohérence temporelle entre les images. Nous proposons également une méthode d'augmentation temporelle basée sur l'échantillonnage pour éviter une invariance excessive sur des clips éloignés dans le temps. Sur Kinetics-600, un classifieur linéaire formé sur les représentations apprises par CVRL atteint une précision top-1 de 70,4% avec un backbone 3D-ResNet-50 (R3D-50), surpassant la préformation supervisée sur ImageNet de 15,7% et la préformation non supervisée SimCLR de 18,8% en utilisant le même R3D-50 gonflé. Les performances de CVRL peuvent être encore améliorées jusqu'à 72,9% avec un backbone R3D-152 (2x filtres), réduisant considérablement l'écart entre l'apprentissage non supervisé et supervisé des représentations vidéo. Notre code et nos modèles seront disponibles à l'adresse suivante : https://github.com/tensorflow/models/tree/master/official/.

Apprentissage de représentations vidéo contrastives spatiotemporelles | Articles de recherche récents | HyperAI