Pré-entraînement vidéo-langage egocentrique

La pré-formation vidéo-langage (VLP), visant à apprendre des représentations transférables afin d'améliorer une large gamme de tâches ultérieures impliquant des vidéos et du texte, a récemment suscité un intérêt croissant. Les meilleurs résultats obtenus jusqu’à présent reposent sur de grands jeux de données vidéo-texte en troisième personne, tels que HowTo100M. Dans ce travail, nous exploitons le jeu de données récemment publié Ego4D afin de mener des recherches pionnières en VLP égocentrique selon trois axes. (i) Nous proposons EgoClip, un nouveau jeu de données pré-entraîné vidéo-texte en première personne, comprenant 3,8 millions de paires clip-texte soigneusement sélectionnées à partir d’Ego4D, couvrant une grande variété d’activités quotidiennes humaines. (ii) Nous introduisons une nouvelle fonction d’objectif d’entraînement, nommée EgoNCE, qui adapte l’apprentissage contrastif vidéo-texte au domaine égocentrique en exploitant des exemples positifs et négatifs spécifiques à l’orientation égocentrique. (iii) Nous proposons EgoMCQ, un benchmark de développement proche d’EgoClip, permettant ainsi une validation efficace et une exploration rapide de nos choix architecturaux dans EgoClip et EgoNCE. En outre, nous démontrons des performances solides sur cinq tâches ultérieures égocentriques, réparties sur trois jeux de données : recherche vidéo-texte sur EPIC-KITCHENS-100 ; reconnaissance d’actions sur Charades-Ego ; classification de requêtes naturelles, de requêtes de moment et de changements d’état d’objets sur les benchmarks du défi Ego4D. Les données et le code sont disponibles à l’adresse suivante : https://github.com/showlab/EgoVLP.