HyperAIHyperAI
il y a 16 jours

La génération de légendes vidéo denses bout-en-bout comme une génération de séquence

Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut
La génération de légendes vidéo denses bout-en-bout comme une génération de séquence
Résumé

La génération de légendes vidéo dense vise à identifier les événements d’intérêt dans une vidéo d’entrée, puis à produire des légendes descriptives pour chacun de ces événements. Les approches antérieures suivent généralement un processus de génération en deux étapes : elles proposent d’abord un segment pour chaque événement, puis génèrent une légende pour chaque segment identifié. Les progrès récents dans le préentraînement à grande échelle pour la génération de séquences ont permis des succès remarquables dans l’unification de la formulation des tâches pour un large éventail d’applications, mais jusqu’à présent, des tâches plus complexes telles que la génération de légendes vidéo dense ne parviennent pas pleinement à exploiter ce puissant paradigme. Dans ce travail, nous montrons comment modéliser les deux sous-tâches de la génération de légendes vidéo dense de manière conjointe comme une seule tâche de génération de séquence, tout en prédisant simultanément les événements et leurs descriptions correspondantes. Des expériences menées sur les jeux de données YouCook2 et ViTT ont obtenu des résultats encourageants, indiquant la faisabilité d’intégrer des tâches complexes telles que la génération de légendes vidéo dense en un seul processus, directement dans des modèles préentraînés à grande échelle.