il y a 8 jours

NarrativeBridge : Amélioration de la génération de légendes vidéo grâce au récit causale-temporel

Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa

Résumé

Les benchmarks et modèles existants en matière de génération de légendes vidéo manquent d’une narration causale-temporelle, c’est-à-dire des séquences d’événements liées par des relations de cause à effet, s’élargissant dans le temps et pilotées par des personnages ou des agents. Ce manque de narration limite la capacité des modèles à produire des descriptions textuelles qui captent les dynamiques causales et temporelles inhérentes au contenu vidéo. Pour combler cette lacune, nous proposons NarrativeBridge, une approche composée de deux composants : (1) un nouveau benchmark de légendes causales-temporelles (CTN), généré à l’aide d’un grand modèle linguistique et de techniques de few-shot prompting, explicitement codant les relations temporelles de cause à effet dans les descriptions vidéo ; et (2) un réseau Cause-Effect (CEN) doté d’encodeurs séparés pour capturer les dynamiques de cause et d’effet, permettant un apprentissage et une génération efficaces de légendes intégrant une narration causale-temporelle. Des expérimentations étendues démontrent que CEN surpasse significativement les modèles de pointe en matière de formulation des aspects causaux et temporels du contenu vidéo : 17,88 et 17,44 en CIDEr sur les jeux de données MSVD-CTN et MSRVTT-CTN, respectivement. Des évaluations trans-datasets mettent également en évidence les fortes capacités de généralisation de CEN. Le cadre proposé comprend et génère des descriptions textuelles nuancées, intégrant des structures narratives causales-temporelles complexes présentes dans les vidéos, palliant ainsi une limitation critique dans la génération de légendes vidéo. Pour plus de détails sur le projet, rendez-vous sur https://narrativebridge.github.io/.