HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning vidéo dense bout-à-bout avec décodage parallèle

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

Résumé

La génération de légendes vidéo dense vise à produire plusieurs légendes associées, chacune localisée temporellement dans la vidéo. Les méthodes précédentes suivent un schéma sophistiqué du type « localiser puis décrire », qui repose fortement sur de nombreux composants manuellement conçus. Dans ce travail, nous proposons un cadre simple mais efficace pour la génération de légendes vidéo dense en bout-à-bout, basé sur une décodage parallèle (PDVC), en formulant la génération de légendes denses comme une tâche de prédiction d’ensemble. En pratique, en empilant un nouveau composant, appelé event counter, au sommet d’un décodeur Transformer, PDVC segmente précisément la vidéo en un nombre approprié de segments d’événements, sous une compréhension globale du contenu vidéo, ce qui améliore efficacement la cohérence et la lisibilité des légendes prédites. Par rapport aux approches antérieures, PDVC présente plusieurs avantages remarquables : (1) Sans recourir à une suppression non maximale heuristique ou à un réseau récurrent de sélection de séquence d’événements pour éliminer la redondance, PDVC produit directement un ensemble d’événements de taille adaptée ; (2) Contrairement à l’approche en deux étapes, nous alimentons les représentations améliorées des requêtes d’événements de manière parallèle dans les deux sous-tâches de localisation et de génération de légendes, permettant ainsi une interaction profonde et une amélioration mutuelle au cours de l’optimisation ; (3) Sans recourir à des artifices complexes, des expériences étendues sur les jeux de données ActivityNet Captions et YouCook2 montrent que PDVC est capable de produire des résultats de haute qualité, dépassant les méthodes de pointe en deux étapes, tout en atteignant un niveau de précision de localisation équivalent. Le code est disponible à l’adresse suivante : https://github.com/ttengwang/PDVC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp