HyperAIHyperAI
vor 2 Monaten

Die Ausnutzung multimodaler räumlich-zeitlicher Muster für die Verfolgung von Videoobjekten

Xiantao Hu; Ying Tai; Xu Zhao; Chen Zhao; Zhenyu Zhang; Jun Li; Bineng Zhong; Jian Yang
Die Ausnutzung multimodaler räumlich-zeitlicher Muster für die Verfolgung von Videoobjekten
Abstract

Die multimodale Verfolgung hat aufgrund ihrer Fähigkeit, die inhärenten Einschränkungen der traditionellen RGB-Verfolgung effektiv zu überwinden, weitreichende Aufmerksamkeit gefunden. Bestehende multimodale Tracker konzentrieren sich jedoch hauptsächlich auf die Fusion und Verbesserung räumlicher Merkmale oder nutzen lediglich die dünnen zeitlichen Beziehungen zwischen Videobildern. Diese Ansätze nutzen die zeitlichen Korrelationen in multimodalen Videos nicht vollständig aus, was es schwierig macht, dynamische Änderungen und Bewegungsinformationen von Zielen in komplexen Szenarien zu erfassen. Um dieses Problem zu lindern, schlagen wir einen einheitlichen multimodalen räumlich-zeitlichen Tracking-Ansatz vor, den wir STTrack nennen. Im Gegensatz zu früheren Paradigmen, die sich allein auf das Aktualisieren von Referenzinformationen stützten, haben wir einen zeitlichen Zustandsgenerator (Temporal State Generator, TSG) eingeführt, der kontinuierlich eine Sequenz von Token generiert, die multimodale zeitliche Informationen enthalten. Diese Token mit zeitlichen Informationen werden verwendet, um die Lokalisierung des Ziels im nächsten Zeitpunkt zu leiten, langfristige kontextuelle Beziehungen zwischen Videobildern herzustellen und die zeitliche Trajektorie des Ziels zu erfassen. Zudem haben wir auf der räumlichen Ebene die Mamba-Fusion und Hintergrundunterdrückungsinteraktionsmodule (Background Suppression Interactive Modules, BSI) eingeführt. Diese Module etablieren einen zweistufigen Mechanismus zur Koordination der Informationsinteraktion und -fusion zwischen den Modalitäten. Ausführliche Vergleiche an fünf Benchmark-Datensätzen zeigen, dass STTrack in verschiedenen multimodalen Tracking-Szenarien den Stand der Technik erreicht. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/NJU-PCALab/STTrack.

Die Ausnutzung multimodaler räumlich-zeitlicher Muster für die Verfolgung von Videoobjekten | Neueste Forschungsarbeiten | HyperAI