il y a 2 mois

VLG-Net : Réseau de Correspondance Graphe Vidéo-Langage pour l'Ancrage Vidéo

Soldan, Mattia ; Xu, Mengmeng ; Qu, Sisi ; Tegner, Jesper ; Ghanem, Bernard

Résumé

L'ancrage de requêtes linguistiques dans des vidéos vise à identifier l'intervalle temporel (ou le moment) sémantiquement pertinent à une requête linguistique. La résolution de cette tâche complexe nécessite une compréhension du contenu sémantique des vidéos et des requêtes, ainsi qu'une analyse fine de leurs interactions multimodales. Notre idée principale consiste à reformuler ce défi en un problème d'appariement algorithmique de graphes. Grâce aux récentes avancées dans les réseaux neuronaux graphiques, nous proposons d'utiliser des réseaux de convolution graphique pour modéliser les informations vidéo et textuelles ainsi que leur alignement sémantique. Pour permettre l'échange mutuel d'informations entre les modalités, nous avons conçu un nouveau réseau d'appariement de graphes vidéo-langage (VLG-Net) pour faire correspondre les graphes vidéo et requête. Les ingrédients clés incluent des graphes de représentation construits séparément au-dessus des extraits vidéo et des jetons de requête, utilisés pour modéliser les relations intramodales. Une couche d'appariement de graphes est adoptée pour la modélisation du contexte intermodale et la fusion multimodale. Enfin, les candidats moments sont créés en utilisant un regroupement d'attention masquée par moment en fusionnant les caractéristiques enrichies des extraits du moment. Nous démontrons une performance supérieure aux méthodes d'ancrage actuelles sur trois jeux de données largement utilisés pour la localisation temporelle des moments dans des vidéos avec des requêtes linguistiques : ActivityNet-Captions, TACoS et DiDeMo.