HyperAIHyperAI
vor 15 Tagen

Know Your Target: Target-Aware Transformer macht bessere spatio-temporale Video-Grundlegung

Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang
Know Your Target: Target-Aware Transformer macht bessere spatio-temporale Video-Grundlegung
Abstract

Transformer hat zunehmendes Interesse in der STVG (Spatial-Temporal Video Grounding) geweckt, bedingt durch seine end-to-end-Architektur und vielversprechenden Ergebnisse. Bestehende Transformer-basierte Ansätze für die STVG nutzen häufig eine Reihe von Objekt-Queries, die einfach mit Nullen initialisiert werden und über iterative Interaktionen mit multimodalen Merkmalen schrittweise Informationen zur Zielposition erlernen, um räumliche und zeitliche Lokalisierung zu erreichen. Trotz ihrer Einfachheit erweisen sich diese Null-Objekt-Queries aufgrund des Fehlens zielbezogener Hinweise als schwierig, diskriminative Zielinformationen aus Interaktionen mit multimodalen Merkmalen in komplexen Szenarien (z. B. bei Störungen oder Verdeckung) zu lernen, was zu einer Leistungseinbuße führt. Um dieses Problem anzugehen, stellen wir einen neuartigen, zielbewussten Transformer für die STVG (TA-STVG) vor, der adaptiv Objekt-Queries generiert, indem er zielbezogene Hinweise aus dem gegebenen Video-Text-Paar erschließt, um die STVG zu verbessern. Der Schlüssel liegt in zwei einfachen, jedoch wirksamen Modulen, die sequenziell arbeiten: textgesteuerte zeitliche Abtastung (TTS) und attributbewusste räumliche Aktivierung (ASA). Erstere konzentriert sich auf die Auswahl zielrelevanter zeitlicher Hinweise aus dem Video unter Nutzung der globalen Textinformation, während letztere die feinabgestimmten visuellen Attributinformationen des Objekts aus vorherigen zielbewussten zeitlichen Hinweisen weiter ausnutzt, um die Initialisierung der Objekt-Queries zu ermöglichen. Im Gegensatz zu bestehenden Methoden, die mit Null-Initialisierung arbeiten, entstehen die Objekt-Queries in unserem TA-STVG direkt aus dem gegebenen Video-Text-Paar und tragen daher naturgemäß zielbezogene Hinweise, was sie adaptiv macht und eine bessere Interaktion mit multimodalen Merkmalen ermöglicht, um diskriminativere Informationen zu lernen und somit die STVG zu verbessern. In Experimenten an drei Benchmarks erreicht TA-STVG die derzeit beste Leistung und unterscheidet sich signifikant von der Baseline, was die Wirksamkeit unseres Ansatzes belegt.

Know Your Target: Target-Aware Transformer macht bessere spatio-temporale Video-Grundlegung | Neueste Forschungsarbeiten | HyperAI