Une Analyse à Grande Échelle de l'Apprentissage des Représentations Vidéo Auto-Supervisées

L'apprentissage auto-supervisé est une méthode efficace pour l'entraînement préalable de modèles sans étiquettes, en particulier dans le domaine vidéo où l'étiquetage est coûteux. Les travaux existants d'apprentissage auto-supervisé dans le domaine vidéo utilisent des configurations expérimentales variées pour démontrer leur efficacité, ce qui rend difficile la comparaison entre les différentes approches en l'absence d'un benchmark standard. Dans cette étude, nous fournissons d'abord un benchmark permettant de comparer les approches existantes sur un pied d'égalité. Ensuite, nous examinons cinq aspects différents de l'apprentissage auto-supervisé importants pour les vidéos : 1) la taille des jeux de données, 2) la complexité, 3) la distribution des données, 4) le bruit des données et 5) l'analyse des caractéristiques. Pour faciliter cette étude, nous nous concentrons sur sept méthodes différentes ainsi que sur sept architectures de réseau différentes et réalisons un ensemble exhaustif d'expériences sur cinq jeux de données différents, avec une évaluation de deux tâches en aval différentes. Nous présentons plusieurs observations intéressantes issues de cette étude, qui couvrent diverses propriétés des jeux de données d'entraînement préalable et cibles, des tâches prétextes et des architectures de modèles, entre autres. Nous mettons également certaines de ces observations à l'épreuve pratique et proposons une approche nécessitant une quantité limitée de données d'entraînement et surpassant les approches actuelles les plus avancées qui utilisent dix fois plus de données d'entraînement préalable. Nous pensons que ce travail ouvrira la voie à une meilleure compréhension des tâches prétextes auto-supervisées dans l'apprentissage des représentations vidéo.