HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement génératif bout-en-bout pour la génération de légendes vidéo multimodales

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Résumé

Les cadres récents de préentraînement vidéo et langage manquent de capacité à générer des phrases. Nous proposons MV-GPT (Multimodal Video Generative Pretraining), un nouveau cadre de préentraînement permettant d'apprendre à partir de vidéos non étiquetées, et efficacement utilisable pour des tâches génératives telles que la génération de légendes vidéo multimodales. Contrairement aux cadres récents de préentraînement vidéo-langage, notre approche entraîne de manière conjointe un encodeur vidéo multimodal et un décodeur de phrases. Pour pallier l'absence de légendes dans les vidéos non étiquetées, nous exploitons l'énoncé futur comme source de texte supplémentaire et proposons une objectif de génération bidirectionnelle : nous générons les énoncés futurs à partir du contexte multimodal actuel, tout comme nous reconstruisons l'énoncé actuel à partir des observations futures. Grâce à cet objectif, nous entraînons un modèle encodeur-décodeur de manière end-to-end afin de produire une légende directement à partir de pixels bruts et de transcriptions vocales. Notre modèle atteint des performances de pointe sur quatre benchmarks standards pour la génération de légendes vidéo multimodales, ainsi que pour d'autres tâches de compréhension vidéo telles que la question-réponse vidéo (VideoQA), la recherche vidéo et la classification d'actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp