VLG-Net: Video-Sprach-Graph-Matching-Netzwerk für Video-Grounding

Die Verankerung von Sprachanfragen in Videos zielt darauf ab, das zeitliche Intervall (oder den Zeitpunkt) zu identifizieren, das semantisch relevant für eine Sprachanfrage ist. Die Lösung dieser anspruchsvollen Aufgabe erfordert das Verständnis des semantischen Inhalts sowohl der Videos als auch der Anfragen und die feingranulare Analyse ihrer multimodalen Interaktionen. Unser zentrales Konzept besteht darin, diese Herausforderung in ein algorithmisches Graphen-Matching-Problem umzuwandeln. Gestützt durch jüngste Fortschritte im Bereich der Graph Neural Networks (GNNs), schlagen wir vor, Graph Convolutional Networks (GCNs) zu nutzen, um sowohl visuelle als auch textuelle Informationen sowie ihre semantische Ausrichtung zu modellieren. Um den Informationsaustausch zwischen den Modalitäten zu ermöglichen, haben wir ein neues Video-Sprache-Graphen-Matching-Netzwerk (VLG-Net) entwickelt, das Video- und Anfragegraphen zusammenführt. Kernkomponenten sind Repräsentationsgraphen, die jeweils auf Videoausschnitten und Anfragetoken basieren und verwendet werden, um intramodale Beziehungen zu modellieren. Eine Graph Matching Schicht wird angewendet, um den multimodal kontextuellen Zusammenhang zu modellieren und die Multimodalität zu fusionieren. Schließlich werden Kandidaten für Zeitintervalle durch maskiertes Moment Attention Pooling erstellt, indem die bereicherten Features der Videoausschnitte fusioniert werden. Wir zeigen eine überlegene Leistung unserer Methode im Vergleich zu den besten bisher bekannten Verankerungsverfahren auf drei weit verbreiteten Datensätzen zur zeitlichen Lokalisierung von Momenten in Videos mit Sprachanfragen: ActivityNet-Captions, TACoS und DiDeMo.