Apprentissage de représentations spatio-temporelles auto-supervisées pour les vidéos par prédiction des statistiques de mouvement et d'apparence

Nous abordons le problème de l'apprentissage de la représentation vidéo sans étiquettes annotées par des humains. Bien que les efforts précédents aient tenté de résoudre ce problème en concevant de nouvelles tâches d'auto-supervision utilisant des données vidéo, les caractéristiques apprises ne sont généralement qu'à base d'image par image, ce qui ne convient pas à de nombreuses tâches d'analyse vidéo où les caractéristiques spatio-temporelles prédominent. Dans cet article, nous proposons une nouvelle approche auto-supervisée pour apprendre des caractéristiques spatio-temporelles pour la représentation vidéo. Inspirés par le succès des approches à deux flux dans la classification vidéo, nous proposons d'apprendre des caractéristiques visuelles en régressant à la fois les statistiques du mouvement et de l'apparence le long des dimensions spatiales et temporelles, en utilisant uniquement les données vidéo d'entrée. Plus précisément, nous extrayons des concepts statistiques (régions à mouvement rapide et leur direction dominante correspondante, diversité chromatique spatio-temporelle, couleur dominante, etc.) à partir de motifs simples dans les domaines spatial et temporel. Contrairement aux casse-têtes antérieurs qui peuvent même être difficiles pour les humains à résoudre, notre approche est conforme aux habitudes visuelles inhérentes aux humains et donc facile à comprendre. Nous menons de nombreuses expériences avec C3D pour valider l'efficacité de notre approche proposée. Les expériences montrent que notre approche peut améliorer significativement les performances de C3D lorsqu'elle est appliquée à des tâches de classification vidéo. Le code est disponible sur https://github.com/laura-wang/video_repres_mas.