HyperAIHyperAI
il y a 3 mois

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales

Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid
Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales
Résumé

Les cadres récents de préentraînement vidéo et langage manquent de capacité à générer des phrases. Nous proposons MV-GPT (Multimodal Video Generative Pretraining), un nouveau cadre de préentraînement permettant d'apprendre à partir de vidéos non étiquetées, et efficacement utilisable pour des tâches génératives telles que la génération de légendes vidéo multimodales. Contrairement aux cadres récents de préentraînement vidéo-langage, notre approche entraîne de manière conjointe un encodeur vidéo multimodal et un décodeur de phrases. Pour pallier l'absence de légendes dans les vidéos non étiquetées, nous exploitons l'énoncé futur comme source de texte supplémentaire et proposons une objectif de génération bidirectionnelle : nous générons les énoncés futurs à partir du contexte multimodal actuel, tout comme nous reconstruisons l'énoncé actuel à partir des observations futures. Grâce à cet objectif, nous entraînons un modèle encodeur-décodeur de manière end-to-end afin de produire une légende directement à partir de pixels bruts et de transcriptions vocales. Notre modèle atteint des performances de pointe sur quatre benchmarks standards pour la génération de légendes vidéo multimodales, ainsi que pour d'autres tâches de compréhension vidéo telles que la question-réponse vidéo (VideoQA), la recherche vidéo et la classification d'actions.

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales | Articles de recherche | HyperAI