Apprentissage de représentations vidéo auto-supervisé avec contraste prototypique inter-flux

Les techniques d'apprentissage par contraste au niveau des instances, qui s'appuient sur l'augmentation de données et une fonction de perte contrastive, ont connu un grand succès dans le domaine de l'apprentissage des représentations visuelles. Cependant, elles ne sont pas adaptées pour exploiter la riche structure dynamique des vidéos, car les opérations sont effectuées sur de nombreuses instances augmentées. Dans cet article, nous proposons « Video Cross-Stream Prototypical Contrasting », une nouvelle méthode qui prédit des affectations de prototypes cohérentes à partir des vues RGB et du flux optique, en opérant sur des ensembles d'échantillons. Plus précisément, nous alternons le processus d'optimisation ; lors de l'optimisation d'un des flux, toutes les vues sont mappées à un ensemble de vecteurs prototypes de flux. Chacune des affectations est prédite avec toutes les vues sauf celle correspondant à la prédiction, ce qui rapproche les représentations de leurs prototypes assignés. En conséquence, des plongements vidéo plus efficaces intégrant des informations de mouvement sont appris, sans nécessité explicite de calculer le flux optique pendant l'inférence. Nous obtenons des résultats d'état de l'art pour la recherche vidéo par plus proche voisin et la reconnaissance d'actions, surpassant les meilleures performances précédentes de +3,2% sur UCF101 en utilisant le squelette S3D (90,5% précision Top-1), et de +7,2% sur UCF101 et +15,1% sur HMDB51 en utilisant le squelette R(2+1)D.