UniVL : un modèle pré-entraîné vidéo-langage unifié pour la compréhension et la génération multimodales

Grâce aux récents succès des techniques de pré-entraînement en traitement du langage naturel (NLP) et en tâches vidéo-langage, des travaux récents sur le pré-entraînement vidéo-langage émergent progressivement afin d’améliorer les tâches ultérieures liées à la correspondance vidéo-texte. Toutefois, la plupart des modèles multimodaux existants sont pré-entraînés pour des tâches de compréhension, ce qui engendre un écart entre le pré-entraînement et le fine-tuning pour les tâches de génération. Ce papier propose UniVL : un modèle de pré-entraînement unifié pour la vidéo et le langage, conçu pour supporter à la fois la compréhension et la génération multimodales. Il se compose de quatre composants : deux encodeurs unimodaux, un encodeur croisé et un décodeur basé sur l’architecture Transformer. Cinq objectifs sont spécifiquement conçus pour entraîner chaque composant : jointe vidéo-texte, modèle de langage masqué conditionnel (CMLM), modèle de trames masquées conditionnel (CMFM), alignement vidéo-texte et reconstruction linguistique. Nous proposons également deux stratégies de pré-entraînement : le pré-entraînement par étapes (StagedP) et la représentation améliorée de la vidéo (EnhancedV), afin d’optimiser le processus d’entraînement de UniVL. Le pré-entraînement est effectué sur un grand jeu de données d’instructions vidéo, HowTo100M. Les résultats expérimentaux démontrent que UniVL parvient à apprendre des représentations puissantes vidéo-texte et atteint des performances de pointe sur cinq tâches downstream.