vor 2 Monaten

Lokalisierung von Momenten in langen Videos durch multimodale Anleitung

Barrios, Wayner ; Soldan, Mattia ; Ceballos-Arroyo, Alberto Mario ; Heilbron, Fabian Caba ; Ghanem, Bernard

Abstract

Die kürzliche Einführung der umfangreichen, langen Formen der MAD- und Ego4D-Datensätze hat es Forschern ermöglicht, die Leistung aktueller Stand-of-the-Art-Methoden für Video-Grounding in einem langfristigen Setup zu untersuchen, wobei interessante Erkenntnisse gewonnen wurden: Die aktuellen Grounding-Methoden scheitern an dieser anspruchsvollen Aufgabe und dem Setup aufgrund ihrer Unfähigkeit, lange Videosequenzen zu verarbeiten. In diesem Paper schlagen wir eine Methode vor, um die Leistung des natürlichsprachlichen Groundings in langen Videos durch Identifizierung und Entfernung nicht beschreibbarer Fenster zu verbessern. Wir entwerfen ein geführtes Grounding-Framework, das aus einem Guidance-Modell und einem Basis-Grounding-Modell besteht. Das Guidance-Modell betont beschreibbare Fenster, während das Basis-Grounding-Modell kurze zeitliche Fenster analysiert, um festzustellen, welche Segmente einer gegebenen Sprachanfrage genau entsprechen. Wir präsentieren zwei Designs für das Guidance-Modell: Query-Agnostisch und Query-abhängig, die Effizienz und Genauigkeit ausbalancieren. Experimente zeigen, dass unser vorgeschlagener Ansatz in MAD um 4,1 % und in Ego4D (NLQ) um 4,52 % besser abschneidet als die besten bisher bekannten Modelle. Der Code, die Daten und die Audiodaten von MAD, die notwendig sind, um unsere Experimente nachzubilden, sind unter folgender URL verfügbar:https://github.com/waybarrios/guidance-based-video-grounding.