Auto-encadrement co-entraîné pour l'apprentissage de la représentation vidéo

L'objectif de cet article est l'apprentissage de représentations vidéo uniquement supervisé par la vision. Nous apportons les contributions suivantes : (i) nous examinons les avantages d'ajouter des échantillons positifs de classe sémantique à l'entraînement basé sur l'estimation du contraste informatif par le bruit (InfoNCE), montrant que cette forme d'apprentissage contrastif supervisé entraîne une amélioration claire des performances ; (ii) nous proposons un nouveau schéma de co-entraînement auto-supervisé pour améliorer la perte InfoNCE populaire, en exploitant les informations complémentaires provenant de différentes vues, flux RGB et flux optique, de la même source de données en utilisant une vue pour obtenir des échantillons de classe positive pour l'autre ; (iii) nous évaluons rigoureusement la qualité de la représentation apprise sur deux tâches downstream différentes : reconnaissance d'actions et recherche vidéo. Dans les deux cas, notre approche proposée démontre des performances au niveau de l'état de l'art ou comparables à celles d'autres approches auto-supervisées, tout en étant considérablement plus efficace à entraîner, c'est-à-dire nécessitant beaucoup moins de données d'entraînement pour atteindre des performances similaires.