HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations vidéo contrastives spatiotemporelles

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

Nous présentons une méthode d'apprentissage de représentation vidéo contrastive (CVRL) auto-supervisée pour apprendre des représentations visuelles spatio-temporelles à partir de vidéos non étiquetées. Nos représentations sont apprises en utilisant une perte contrastive, où deux clips augmentés provenant de la même courte vidéo sont rapprochés dans l'espace d'embedding, tandis que les clips provenant de différentes vidéos sont éloignés. Nous examinons ce qui constitue de bonnes augmentations de données pour l'apprentissage auto-supervisé de vidéos et constatons que les informations spatiales et temporelles sont essentielles. Nous concevons soigneusement des augmentations de données impliquant des indices spatiaux et temporels. Plus précisément, nous proposons une méthode d'augmentation spatiale cohérente temporellement pour imposer des augmentations spatiales fortes à chaque image du vidéo tout en maintenant la cohérence temporelle entre les images. Nous proposons également une méthode d'augmentation temporelle basée sur l'échantillonnage pour éviter une invariance excessive sur des clips éloignés dans le temps. Sur Kinetics-600, un classifieur linéaire formé sur les représentations apprises par CVRL atteint une précision top-1 de 70,4% avec un backbone 3D-ResNet-50 (R3D-50), surpassant la préformation supervisée sur ImageNet de 15,7% et la préformation non supervisée SimCLR de 18,8% en utilisant le même R3D-50 gonflé. Les performances de CVRL peuvent être encore améliorées jusqu'à 72,9% avec un backbone R3D-152 (2x filtres), réduisant considérablement l'écart entre l'apprentissage non supervisé et supervisé des représentations vidéo. Notre code et nos modèles seront disponibles à l'adresse suivante : https://github.com/tensorflow/models/tree/master/official/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp