HyperAIHyperAI

Command Palette

Search for a command to run...

La génération de légendes vidéo denses bout-en-bout comme une génération de séquence

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

Résumé

La génération de légendes vidéo dense vise à identifier les événements d’intérêt dans une vidéo d’entrée, puis à produire des légendes descriptives pour chacun de ces événements. Les approches antérieures suivent généralement un processus de génération en deux étapes : elles proposent d’abord un segment pour chaque événement, puis génèrent une légende pour chaque segment identifié. Les progrès récents dans le préentraînement à grande échelle pour la génération de séquences ont permis des succès remarquables dans l’unification de la formulation des tâches pour un large éventail d’applications, mais jusqu’à présent, des tâches plus complexes telles que la génération de légendes vidéo dense ne parviennent pas pleinement à exploiter ce puissant paradigme. Dans ce travail, nous montrons comment modéliser les deux sous-tâches de la génération de légendes vidéo dense de manière conjointe comme une seule tâche de génération de séquence, tout en prédisant simultanément les événements et leurs descriptions correspondantes. Des expériences menées sur les jeux de données YouCook2 et ViTT ont obtenu des résultats encourageants, indiquant la faisabilité d’intégrer des tâches complexes telles que la génération de légendes vidéo dense en un seul processus, directement dans des modèles préentraînés à grande échelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp