il y a 8 mois

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

Nous présentons une méthode d'apprentissage de représentation vidéo contrastive (CVRL) auto-supervisée pour apprendre des représentations visuelles spatio-temporelles à partir de vidéos non étiquetées. Nos représentations sont apprises en utilisant une perte contrastive, où deux clips augmentés provenant de la même courte vidéo sont rapprochés dans l'espace d'embedding, tandis que les clips provenant de différentes vidéos sont éloignés. Nous examinons ce qui constitue de bonnes augmentations de données pour l'apprentissage auto-supervisé de vidéos et constatons que les informations spatiales et temporelles sont essentielles. Nous concevons soigneusement des augmentations de données impliquant des indices spatiaux et temporels. Plus précisément, nous proposons une méthode d'augmentation spatiale cohérente temporellement pour imposer des augmentations spatiales fortes à chaque image du vidéo tout en maintenant la cohérence temporelle entre les images. Nous proposons également une méthode d'augmentation temporelle basée sur l'échantillonnage pour éviter une invariance excessive sur des clips éloignés dans le temps. Sur Kinetics-600, un classifieur linéaire formé sur les représentations apprises par CVRL atteint une précision top-1 de 70,4% avec un backbone 3D-ResNet-50 (R3D-50), surpassant la préformation supervisée sur ImageNet de 15,7% et la préformation non supervisée SimCLR de 18,8% en utilisant le même R3D-50 gonflé. Les performances de CVRL peuvent être encore améliorées jusqu'à 72,9% avec un backbone R3D-152 (2x filtres), réduisant considérablement l'écart entre l'apprentissage non supervisé et supervisé des représentations vidéo. Notre code et nos modèles seront disponibles à l'adresse suivante : https://github.com/tensorflow/models/tree/master/official/.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Vision Par Ordinateur

Reconnaissance D'action

Vision Par Ordinateur

Tâche

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Vision Par Ordinateur

Reconnaissance D'action

Vision Par Ordinateur

Tâche

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage de représentations vidéo contrastives spatiotemporelles

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de représentations vidéo contrastives spatiotemporelles

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de représentations vidéo contrastives spatiotemporelles

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters