Apprentissage de représentations visuelles de bout en bout à partir de vidéos instructives non curatées

L'annotation de vidéos est fastidieuse, coûteuse et peu scalable. Néanmoins, de nombreux modèles vidéo performants s'appuient encore sur des données annotées manuellement. Avec l'introduction récente du jeu de données HowTo100M, les vidéos narrées offrent désormais la possibilité d'apprendre des représentations vidéo sans supervision manuelle. Dans ce travail, nous proposons une nouvelle approche d'apprentissage, MIL-NCE, capable de traiter les désalignements inhérents aux vidéos narrées. Grâce à cette méthode, nous sommes en mesure d'apprendre des représentations vidéo robustes à partir de zéro, sans nécessiter aucune annotation manuelle. Nous évaluons nos représentations sur une gamme étendue de quatre tâches downstream couvrant huit jeux de données : reconnaissance d'actions (HMDB-51, UCF-101, Kinetics-700), recherche de vidéos par texte (YouCook2, MSR-VTT), localisation d'actions (segments YouTube-8M, CrossTask) et segmentation d'actions (COIN). Notre méthode surpasse toutes les approches auto-supervisées publiées pour ces tâches ainsi que plusieurs baselines entièrement supervisées.