VideoCLIP : Pré-entraînement contrastif pour la compréhension vidéo-texte sans supervision

Nous présentons VideoCLIP, une approche par contraste pour pré-entraîner un modèle unifié permettant la compréhension zéro-shot de vidéos et de texte, sans utiliser aucune étiquette pour les tâches en aval. VideoCLIP entraîne un transformateur pour la vidéo et le texte en confrontant des paires vidéo-texte positives se chevauchant temporellement avec des négatifs difficiles issus d'une recherche par plus proches voisins. Nos expériences sur une série diversifiée de tâches en aval, incluant la recherche vidéo-texte au niveau séquentiel, VideoQA, la localisation d'actions au niveau des jetons (token-level) et le segmentage d'actions, révèlent des performances de pointe, surpassant les travaux précédents, et dans certains cas même dépassant les approches supervisées. Le code est disponible à l'adresse suivante : https://github.com/pytorch/fairseq/tree/main/examples/MMPT.