Avancement de la représentation vidéo-langage à haute résolution grâce à des transcriptions vidéo à grande échelle

Nous étudions le pré-entraînement conjoint vidéo-langage (VL) afin de favoriser l'apprentissage cross-modale et tirer parti de nombreuses tâches VL en aval. Les travaux existants extraient soit des caractéristiques vidéo de faible qualité, soit des représentations textuelles limitées, tout en négligeant le fait que les vidéos en haute résolution et les sémantiques diversifiées peuvent considérablement améliorer l'apprentissage cross-modale. Dans cet article, nous proposons un nouveau modèle de pré-entraînement vidéo-langage en haute résolution et à sémantique diversifiée (HD-VILA) adapté à de nombreuses tâches visuelles. Plus précisément, nous avons collecté un grand jeu de données présentant deux caractéristiques distinctes : 1) le premier jeu de données en haute résolution comprenant 371,5 000 heures de vidéos en 720p, et 2) le jeu de données le plus diversifié à ce jour, couvrant 15 catégories populaires de YouTube. Pour permettre le pré-entraînement VL, nous optimisons conjointement le modèle HD-VILA à l’aide d’un Transformer hybride capable d’apprendre des caractéristiques spatio-temporelles riches, ainsi que d’un Transformer multimodal qui renforce les interactions entre les caractéristiques vidéo apprises et les textes diversifiés. Notre modèle pré-entraîné atteint de nouveaux résultats de pointe dans 10 tâches d’understanding VL et dans 2 nouvelles tâches de génération visuelle à partir de texte. Par exemple, nous surpassons les modèles de pointe avec des augmentations relatives de 40,4 % en R@1 sur la tâche de recherche vidéo à partir de texte (zero-shot MSR-VTT) et de 55,4 % sur le jeu de données en haute résolution LSMDC. L’embedding VL appris s’avère également efficace pour générer des résultats visuellement attrayants et sémantiquement pertinents dans les tâches d’édition visuelle à partir de texte et de super-résolution.