HyperAIHyperAI

Command Palette

Search for a command to run...

VLG-Net : Réseau de Correspondance Graphe Vidéo-Langage pour l'Ancrage Vidéo

Mattia Soldan* Mengmeng Xu* Sisi Qu* Jesper Tegner Bernard Ghanem

Résumé

L'ancrage de requêtes linguistiques dans des vidéos vise à identifier l'intervalle temporel (ou le moment) sémantiquement pertinent à une requête linguistique. La résolution de cette tâche complexe nécessite une compréhension du contenu sémantique des vidéos et des requêtes, ainsi qu'une analyse fine de leurs interactions multimodales. Notre idée principale consiste à reformuler ce défi en un problème d'appariement algorithmique de graphes. Grâce aux récentes avancées dans les réseaux neuronaux graphiques, nous proposons d'utiliser des réseaux de convolution graphique pour modéliser les informations vidéo et textuelles ainsi que leur alignement sémantique. Pour permettre l'échange mutuel d'informations entre les modalités, nous avons conçu un nouveau réseau d'appariement de graphes vidéo-langage (VLG-Net) pour faire correspondre les graphes vidéo et requête. Les ingrédients clés incluent des graphes de représentation construits séparément au-dessus des extraits vidéo et des jetons de requête, utilisés pour modéliser les relations intramodales. Une couche d'appariement de graphes est adoptée pour la modélisation du contexte intermodale et la fusion multimodale. Enfin, les candidats moments sont créés en utilisant un regroupement d'attention masquée par moment en fusionnant les caractéristiques enrichies des extraits du moment. Nous démontrons une performance supérieure aux méthodes d'ancrage actuelles sur trois jeux de données largement utilisés pour la localisation temporelle des moments dans des vidéos avec des requêtes linguistiques : ActivityNet-Captions, TACoS et DiDeMo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp