Élargissez vos perspectives pour l'apprentissage vidéo auto-supervisé

La plupart des méthodes d'apprentissage auto-supervisé les plus réussies sont formées pour aligner les représentations de deux vues indépendantes extraites des données. Les méthodes les plus avancées dans le domaine de la vidéo s'inspirent des techniques d'images, où ces deux vues sont similaires et extraites par recadrage et augmentation du recadrage résultant. Cependant, ces méthodes négligent un élément crucial dans le domaine de la vidéo : le temps. Nous présentons BraVe, un cadre d'apprentissage auto-supervisé pour la vidéo. Dans BraVe, l'une des vues a accès à une fenêtre temporelle étroite de la vidéo tandis que l'autre vue a un accès large au contenu de la vidéo. Nos modèles apprennent à généraliser à partir de la vue étroite vers le contenu général de la vidéo. De plus, BraVe traite les vues avec différentes architectures de réseaux neuronaux (backbones), permettant l'utilisation d'augmentations alternatives ou de modalités dans la vue large, telles que le flux optique, des images RGB convolées aléatoirement, l'audio ou leurs combinaisons. Nous démontrons que BraVe obtient des résultats d'avant-garde en apprentissage auto-supervisé de représentations sur des benchmarks standard de classification vidéo et audio, notamment UCF101, HMDB51, Kinetics, ESC-50 et AudioSet.