NarrativeBridge : Amélioration de la génération de légendes vidéo grâce au récit causale-temporel

Les benchmarks et modèles existants en matière de génération de légendes vidéo manquent d’une narration causale-temporelle, c’est-à-dire des séquences d’événements liées par des relations de cause à effet, s’élargissant dans le temps et pilotées par des personnages ou des agents. Ce manque de narration limite la capacité des modèles à produire des descriptions textuelles qui captent les dynamiques causales et temporelles inhérentes au contenu vidéo. Pour combler cette lacune, nous proposons NarrativeBridge, une approche composée de deux composants : (1) un nouveau benchmark de légendes causales-temporelles (CTN), généré à l’aide d’un grand modèle linguistique et de techniques de few-shot prompting, explicitement codant les relations temporelles de cause à effet dans les descriptions vidéo ; et (2) un réseau Cause-Effect (CEN) doté d’encodeurs séparés pour capturer les dynamiques de cause et d’effet, permettant un apprentissage et une génération efficaces de légendes intégrant une narration causale-temporelle. Des expérimentations étendues démontrent que CEN surpasse significativement les modèles de pointe en matière de formulation des aspects causaux et temporels du contenu vidéo : 17,88 et 17,44 en CIDEr sur les jeux de données MSVD-CTN et MSRVTT-CTN, respectivement. Des évaluations trans-datasets mettent également en évidence les fortes capacités de généralisation de CEN. Le cadre proposé comprend et génère des descriptions textuelles nuancées, intégrant des structures narratives causales-temporelles complexes présentes dans les vidéos, palliant ainsi une limitation critique dans la génération de légendes vidéo. Pour plus de détails sur le projet, rendez-vous sur https://narrativebridge.github.io/.