FlashVTG: Feature Layering und adaptives Scoring-Netzwerk für die temporale Lokalisierung in Videos

Text-guided Video Temporal Grounding (VTG) zielt darauf ab, relevante Segmente in ungeschnittenen Videos basierend auf textuellen Beschreibungen zu lokalisieren und umfasst zwei Teilbereiche: Moment Retrieval (MR) und Highlight Detection (HD). Obwohl frühere Methoden bemerkenswerte Ergebnisse erzielt haben, bleibt es weiterhin schwierig, kurze Videosequenzen zu identifizieren. Dies liegt hauptsächlich an der Abhängigkeit von dünn besetzten und begrenzten Decoder-Abfragen, die die Genauigkeit der Vorhersagen erheblich einschränken. Zudem führen suboptimale Ergebnisse oft dadurch zustande, dass frühere Methoden Vorhersagen basierend auf isolierten Prognosen rangieren, wobei sie den breiteren Video-Kontext vernachlässigen. Um diese Herausforderungen zu bewältigen, stellen wir FlashVTG vor, ein Framework mit einem Temporal Feature Layering (TFL)-Modul und einem Adaptive Score Refinement (ASR)-Modul. Das TFL-Modul ersetzt die traditionelle Decoder-Struktur, um feine Inhaltsänderungen in Videos über mehrere zeitliche Skalen zu erfassen. Das ASR-Modul verbessert die Rangfolge der Vorhersagen durch die Integration des Kontexts aus benachbarten Momenten und multi-temporal-skalierten Merkmalen. Ausführliche Experimente zeigen, dass FlashVTG den Stand der Technik auf vier weit verbreiteten Datensätzen sowohl im MR als auch im HD erreicht. Insbesondere beim QVHighlights-Datensatz steigert es das mAP um 5,8 % für MR und um 3,3 % für HD. Für die Identifizierung kurzer Sequenzen erhöht FlashVTG das mAP auf 125 % des bisherigen Bestleistungsstandards (SOTA). All diese Verbesserungen werden ohne zusätzliche Trainingsbelastungen erzielt, was seine Effektivität unterstreicht. Unser Code ist unter https://github.com/Zhuo-Cao/FlashVTG verfügbar.