HyperAIHyperAI
il y a 17 jours

Pré-entraînement vidéo-langage à longue forme avec apprentissage contrastif temporel multimodal

Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu
Pré-entraînement vidéo-langage à longue forme avec apprentissage contrastif temporel multimodal
Résumé

L’apprentissage préalable à grande échelle sur des vidéos et des langues a montré des progrès significatifs dans les tâches de compréhension vidéo-langage. Les études antérieures sur l’apprentissage préalable vidéo-langage se sont principalement concentrées sur des vidéos courtes (c’est-à-dire inférieures à 30 secondes) et des phrases, laissant peu explorée la pré-formation sur des vidéos longues. L’apprentissage direct de représentations à partir de vidéos longues et de textes pourrait bénéficier à de nombreuses tâches de compréhension vidéo-langage à long format. Toutefois, cela s’avère difficile en raison de la complexité de modélisation des relations à longue portée et du lourd fardeau computationnel induit par le grand nombre de cadres. Dans cet article, nous introduisons un modèle d’apprentissage préalable vidéo-langage à long format (LF-VILA) et le formons sur un grand jeu de données constitué de vidéos longues et de paragraphes, construit à partir d’un jeu de données public existant. Pour capturer efficacement les dynamiques temporelles riches et mieux aligner vidéo et langage de manière efficace et end-to-end, nous proposons deux innovations dans notre modèle LF-VILA. Premièrement, nous introduisons une perte de contraste temporel multimodal (MTC) afin d’apprendre les relations temporelles entre différentes modalités en encourageant un alignement fin entre les vidéos longues et les paragraphes. Deuxièmement, nous proposons un mécanisme d’attention à fenêtre temporelle hiérarchique (HTWA) pour capturer efficacement les dépendances à longue portée tout en réduisant le coût computationnel dans les Transformers. Nous ajustons finement le modèle LF-VILA pré-entraîné sur sept tâches de compréhension vidéo-langage à long format, notamment la recherche de vidéo à partir de paragraphes et la question-réponse sur vidéos longues, obtenant ainsi de nouveaux résultats d’état de l’art. Plus précisément, notre modèle réalise une amélioration relative de 16,1 % sur la tâche de recherche vidéo à partir de paragraphes sur ActivityNet et de 2,4 % sur la tâche How2QA, respectivement. Nous mettons à disposition notre code, notre jeu de données et nos modèles pré-entraînés à l’adresse suivante : https://github.com/microsoft/XPretrain.

Pré-entraînement vidéo-langage à longue forme avec apprentissage contrastif temporel multimodal | Articles de recherche récents | HyperAI