il y a 8 jours

UniVL : un modèle pré-entraîné vidéo-langage unifié pour la compréhension et la génération multimodales

Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Jason Li, Taroon Bharti, Ming Zhou

Résumé

Grâce aux récents succès des techniques de pré-entraînement en traitement du langage naturel (NLP) et en tâches vidéo-langage, des travaux récents sur le pré-entraînement vidéo-langage émergent progressivement afin d’améliorer les tâches ultérieures liées à la correspondance vidéo-texte. Toutefois, la plupart des modèles multimodaux existants sont pré-entraînés pour des tâches de compréhension, ce qui engendre un écart entre le pré-entraînement et le fine-tuning pour les tâches de génération. Ce papier propose UniVL : un modèle de pré-entraînement unifié pour la vidéo et le langage, conçu pour supporter à la fois la compréhension et la génération multimodales. Il se compose de quatre composants : deux encodeurs unimodaux, un encodeur croisé et un décodeur basé sur l’architecture Transformer. Cinq objectifs sont spécifiquement conçus pour entraîner chaque composant : jointe vidéo-texte, modèle de langage masqué conditionnel (CMLM), modèle de trames masquées conditionnel (CMFM), alignement vidéo-texte et reconstruction linguistique. Nous proposons également deux stratégies de pré-entraînement : le pré-entraînement par étapes (StagedP) et la représentation améliorée de la vidéo (EnhancedV), afin d’optimiser le processus d’entraînement de UniVL. Le pré-entraînement est effectué sur un grand jeu de données d’instructions vidéo, HowTo100M. Les résultats expérimentaux démontrent que UniVL parvient à apprendre des représentations puissantes vidéo-texte et atteint des performances de pointe sur cinq tâches downstream.