HyperAIHyperAI

Command Palette

Search for a command to run...

Die Ausnutzung multimodaler räumlich-zeitlicher Muster für die Verfolgung von Videoobjekten

Xiantao Hu Ying Tai* Xu Zhao Chen Zhao Zhenyu Zhang Jun Li Bineng Zhong Jian Yang*

Zusammenfassung

Die multimodale Verfolgung hat aufgrund ihrer Fähigkeit, die inhärenten Einschränkungen der traditionellen RGB-Verfolgung effektiv zu überwinden, weitreichende Aufmerksamkeit gefunden. Bestehende multimodale Tracker konzentrieren sich jedoch hauptsächlich auf die Fusion und Verbesserung räumlicher Merkmale oder nutzen lediglich die dünnen zeitlichen Beziehungen zwischen Videobildern. Diese Ansätze nutzen die zeitlichen Korrelationen in multimodalen Videos nicht vollständig aus, was es schwierig macht, dynamische Änderungen und Bewegungsinformationen von Zielen in komplexen Szenarien zu erfassen. Um dieses Problem zu lindern, schlagen wir einen einheitlichen multimodalen räumlich-zeitlichen Tracking-Ansatz vor, den wir STTrack nennen. Im Gegensatz zu früheren Paradigmen, die sich allein auf das Aktualisieren von Referenzinformationen stützten, haben wir einen zeitlichen Zustandsgenerator (Temporal State Generator, TSG) eingeführt, der kontinuierlich eine Sequenz von Token generiert, die multimodale zeitliche Informationen enthalten. Diese Token mit zeitlichen Informationen werden verwendet, um die Lokalisierung des Ziels im nächsten Zeitpunkt zu leiten, langfristige kontextuelle Beziehungen zwischen Videobildern herzustellen und die zeitliche Trajektorie des Ziels zu erfassen. Zudem haben wir auf der räumlichen Ebene die Mamba-Fusion und Hintergrundunterdrückungsinteraktionsmodule (Background Suppression Interactive Modules, BSI) eingeführt. Diese Module etablieren einen zweistufigen Mechanismus zur Koordination der Informationsinteraktion und -fusion zwischen den Modalitäten. Ausführliche Vergleiche an fünf Benchmark-Datensätzen zeigen, dass STTrack in verschiedenen multimodalen Tracking-Szenarien den Stand der Technik erreicht. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/NJU-PCALab/STTrack.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Ausnutzung multimodaler räumlich-zeitlicher Muster für die Verfolgung von Videoobjekten | Paper | HyperAI