il y a 8 jours

Préentraînement multimodal pour la génération de légendes vidéo dense

Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut

Résumé

L’apprentissage de compétences pratiques spécifiques, telles que la cuisine, l’entretien automobile ou les réparations domestiques, s’effectue de plus en plus à l’aide de vidéos explicatives. L’expérience utilisateur de ces vidéos s’avère améliorée par des métadonnées, telles que des annotations chronométrées des étapes principales. La génération automatique de ces annotations est toutefois complexe, et nous présentons ici deux contributions pertinentes. Premièrement, nous construisons et mettons à disposition un nouveau jeu de données de captioning dense de vidéos, appelé Video Timeline Tags (ViTT), comprenant une variété de vidéos pédagogiques accompagnées d’annotations chronométrées. Deuxièmement, nous explorons plusieurs stratégies de pré-entraînement séquentiel multimodal qui exploitent de grandes collections non étiquetées de vidéos et de textes ressemblant à des légendes. Nous pré-entraînons puis fine-tunons des modèles de captioning dense de vidéos à l’aide à la fois de YouCook2 et de ViTT. Nous démontrons que ces modèles se généralisent efficacement et présentent une robustesse significative sur une large gamme de vidéos d’instruction.