Captioning vidéo dense bout-à-bout avec décodage parallèle

La génération de légendes vidéo dense vise à produire plusieurs légendes associées, chacune localisée temporellement dans la vidéo. Les méthodes précédentes suivent un schéma sophistiqué du type « localiser puis décrire », qui repose fortement sur de nombreux composants manuellement conçus. Dans ce travail, nous proposons un cadre simple mais efficace pour la génération de légendes vidéo dense en bout-à-bout, basé sur une décodage parallèle (PDVC), en formulant la génération de légendes denses comme une tâche de prédiction d’ensemble. En pratique, en empilant un nouveau composant, appelé event counter, au sommet d’un décodeur Transformer, PDVC segmente précisément la vidéo en un nombre approprié de segments d’événements, sous une compréhension globale du contenu vidéo, ce qui améliore efficacement la cohérence et la lisibilité des légendes prédites. Par rapport aux approches antérieures, PDVC présente plusieurs avantages remarquables : (1) Sans recourir à une suppression non maximale heuristique ou à un réseau récurrent de sélection de séquence d’événements pour éliminer la redondance, PDVC produit directement un ensemble d’événements de taille adaptée ; (2) Contrairement à l’approche en deux étapes, nous alimentons les représentations améliorées des requêtes d’événements de manière parallèle dans les deux sous-tâches de localisation et de génération de légendes, permettant ainsi une interaction profonde et une amélioration mutuelle au cours de l’optimisation ; (3) Sans recourir à des artifices complexes, des expériences étendues sur les jeux de données ActivityNet Captions et YouCook2 montrent que PDVC est capable de produire des résultats de haute qualité, dépassant les méthodes de pointe en deux étapes, tout en atteignant un niveau de précision de localisation équivalent. Le code est disponible à l’adresse suivante : https://github.com/ttengwang/PDVC.