HyperAIHyperAI

Command Palette

Search for a command to run...

Préentraînement multimodal pour la génération de légendes vidéo dense

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

Résumé

L’apprentissage de compétences pratiques spécifiques, telles que la cuisine, l’entretien automobile ou les réparations domestiques, s’effectue de plus en plus à l’aide de vidéos explicatives. L’expérience utilisateur de ces vidéos s’avère améliorée par des métadonnées, telles que des annotations chronométrées des étapes principales. La génération automatique de ces annotations est toutefois complexe, et nous présentons ici deux contributions pertinentes. Premièrement, nous construisons et mettons à disposition un nouveau jeu de données de captioning dense de vidéos, appelé Video Timeline Tags (ViTT), comprenant une variété de vidéos pédagogiques accompagnées d’annotations chronométrées. Deuxièmement, nous explorons plusieurs stratégies de pré-entraînement séquentiel multimodal qui exploitent de grandes collections non étiquetées de vidéos et de textes ressemblant à des légendes. Nous pré-entraînons puis fine-tunons des modèles de captioning dense de vidéos à l’aide à la fois de YouCook2 et de ViTT. Nous démontrons que ces modèles se généralisent efficacement et présentent une robustesse significative sur une large gamme de vidéos d’instruction.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp