il y a 8 jours

MART : Transformateur récurrent augmenté par la mémoire pour la rédaction de paragraphes de légendes vidéo cohérents

Jie Lei, Liwei Wang, Yelong Shen, Dong Yu, Tamara L. Berg, Mohit Bansal

Résumé

La génération de descriptions multi-phrases pour des vidéos constitue l’une des tâches les plus exigeantes en matière de rédaction de légendes, en raison des exigences élevées tant en termes de pertinence visuelle que de cohérence discursive entre les phrases d’un même paragraphe. Dans cette optique, nous proposons une nouvelle approche nommée Memory-Augmented Recurrent Transformer (MART), qui enrichit l’architecture Transformer grâce à un module mémoire. Ce module mémoire extrait un état mémoire fortement résumé à partir des segments vidéo et de l’historique des phrases, afin d’améliorer la prédiction de la phrase suivante (notamment en matière de coréférence et de répétition), favorisant ainsi une génération de paragraphes plus cohérente. Des expériences étendues, des évaluations humaines et des analyses qualitatives menées sur deux jeux de données populaires, ActivityNet Captions et YouCookII, montrent que MART produit des légendes de paragraphe plus cohérentes et moins répétitives que les méthodes de référence, tout en préservant une forte pertinence par rapport aux événements vidéo d’entrée. Le code source est entièrement disponible en open-source à l’adresse suivante : https://github.com/jayleicn/recurrent-transformer