il y a un mois

Captioning Vidéo Dense de bout en bout avec Transformers Masqués

Luowei Zhou; Yingbo Zhou; Jason J. Corso; Richard Socher; Caiming Xiong

Résumé

La légendage vidéo dense vise à générer des descriptions textuelles pour tous les événements d'une vidéo non tronquée. Cela implique à la fois la détection et la description des événements. Par conséquent, toutes les méthodes précédentes en matière de légendage vidéo dense abordent ce problème en construisant deux modèles, à savoir un modèle de proposition d'événements et un modèle de légendage, pour ces deux sous-problèmes. Les modèles sont soit entraînés séparément, soit alternativement. Cela empêche une influence directe de la description linguistique sur la proposition d'événements, ce qui est crucial pour générer des descriptions précises. Pour résoudre ce problème, nous proposons un modèle transformer intégré (end-to-end) pour le légendage vidéo dense. L'encodeur encode la vidéo en représentations appropriées. Le décodeur de proposition décode l'encodage avec différentes ancres pour former des propositions d'événements vidéo. Le décodeur de légendage utilise un réseau masquant pour restreindre son attention à l'événement proposé au-dessus des caractéristiques encodées. Ce réseau masquant convertit la proposition d'événement en un masque différentiable, garantissant ainsi la cohérence entre la proposition et le légendage pendant l'entraînement. De plus, notre modèle emploie un mécanisme d'auto-attention, permettant l'utilisation d'une structure non récurrente efficace lors de l'encodage et conduisant à des améliorations de performance. Nous démontrons l'efficacité de ce modèle intégré sur les jeux de données ActivityNet Captions et YouCookII, où nous avons respectivement obtenu des scores METEOR de 10,12 et 6,58.