HyperAIHyperAI

Command Palette

Search for a command to run...

VLG-Net: Video-Sprach-Graph-Matching-Netzwerk für Video-Grounding

Mattia Soldan* Mengmeng Xu* Sisi Qu* Jesper Tegner Bernard Ghanem

Zusammenfassung

Die Verankerung von Sprachanfragen in Videos zielt darauf ab, das zeitliche Intervall (oder den Zeitpunkt) zu identifizieren, das semantisch relevant für eine Sprachanfrage ist. Die Lösung dieser anspruchsvollen Aufgabe erfordert das Verständnis des semantischen Inhalts sowohl der Videos als auch der Anfragen und die feingranulare Analyse ihrer multimodalen Interaktionen. Unser zentrales Konzept besteht darin, diese Herausforderung in ein algorithmisches Graphen-Matching-Problem umzuwandeln. Gestützt durch jüngste Fortschritte im Bereich der Graph Neural Networks (GNNs), schlagen wir vor, Graph Convolutional Networks (GCNs) zu nutzen, um sowohl visuelle als auch textuelle Informationen sowie ihre semantische Ausrichtung zu modellieren. Um den Informationsaustausch zwischen den Modalitäten zu ermöglichen, haben wir ein neues Video-Sprache-Graphen-Matching-Netzwerk (VLG-Net) entwickelt, das Video- und Anfragegraphen zusammenführt. Kernkomponenten sind Repräsentationsgraphen, die jeweils auf Videoausschnitten und Anfragetoken basieren und verwendet werden, um intramodale Beziehungen zu modellieren. Eine Graph Matching Schicht wird angewendet, um den multimodal kontextuellen Zusammenhang zu modellieren und die Multimodalität zu fusionieren. Schließlich werden Kandidaten für Zeitintervalle durch maskiertes Moment Attention Pooling erstellt, indem die bereicherten Features der Videoausschnitte fusioniert werden. Wir zeigen eine überlegene Leistung unserer Methode im Vergleich zu den besten bisher bekannten Verankerungsverfahren auf drei weit verbreiteten Datensätzen zur zeitlichen Lokalisierung von Momenten in Videos mit Sprachanfragen: ActivityNet-Captions, TACoS und DiDeMo.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLG-Net: Video-Sprach-Graph-Matching-Netzwerk für Video-Grounding | Paper | HyperAI