HyperAIHyperAI
il y a 4 mois

Une Grande Étude sur l'Apprentissage Non Supervisé des Représentations Spatio-Temporelles

Christoph Feichtenhofer; Haoqi Fan; Bo Xiong; Ross Girshick; Kaiming He
Une Grande Étude sur l'Apprentissage Non Supervisé des Représentations Spatio-Temporelles
Résumé

Nous présentons une étude à grande échelle sur l'apprentissage non supervisé de représentations spatio-temporelles à partir de vidéos. En adoptant une perspective unifiée sur quatre cadres récents basés sur les images, nous examinons un objectif simple qui peut facilement généraliser toutes ces méthodes à l'espace-temps. Notre objectif favorise des caractéristiques temporairement persistantes au sein de la même vidéo, et malgré sa simplicité, il fonctionne de manière surprenante bien dans les cas suivants : (i) différents cadres non supervisés, (ii) ensembles de données d'entraînement préalable, (iii) ensembles de données downstream, et (iv) architectures de backbone. Nous tirons d'une série d'observations intrigantes de cette étude, par exemple, nous découvrons que favoriser une persistance à long terme peut être efficace même si l'intervalle temporel est de 60 secondes. Outre des résultats d'état de l'art dans plusieurs benchmarks, nous rapportons quelques cas prometteurs où l'entraînement non supervisé peut surpasser son homologue supervisé. Le code est disponible à l'adresse https://github.com/facebookresearch/SlowFast

Une Grande Étude sur l'Apprentissage Non Supervisé des Représentations Spatio-Temporelles | Articles de recherche | HyperAI