Apprentissage automatique de variantes visuelles induites par la vidéo

Nous proposons un cadre général d'apprentissage auto-supervisé visant à acquérir des représentations visuelles transférables fondées sur les invariances visuelles induites par les vidéos (VIVI, Video-Induced Visual Invariances). Nous exploitons l'héritage implicite présent dans les vidéos en tirant parti de (i) invariances au niveau des trames (par exemple, stabilité face aux perturbations de couleur et de contraste), (ii) invariances au niveau des plans/extraits (par exemple, robustesse aux changements d'orientation des objets et des conditions d'éclairage), et (iii) invariances au niveau des vidéos (relations sémantiques entre scènes à travers les plans ou extraits), afin de définir une perte auto-supervisée globale. En entraînant des modèles à l’aide de différentes variantes du cadre proposé sur des vidéos issues du jeu de données YouTube-8M (YT8M), nous obtenons des résultats d’apprentissage transféré auto-supervisé de pointe sur les 19 tâches diverses du Visual Task Adaptation Benchmark (VTAB), en utilisant uniquement 1 000 étiquettes par tâche. Nous montrons ensuite comment entraîner conjointement nos modèles avec des images étiquetées, surpassant ainsi un ResNet-50 pré-entraîné sur ImageNet de 0,8 point avec 10 fois moins d’images étiquetées, ainsi que le meilleur modèle supervisé antérieur de 3,7 points en utilisant l’ensemble complet du jeu de données ImageNet.