HyperAIHyperAI
vor 2 Monaten

Einzelnes Modell und beliebige Modalität für die Video-Objektverfolgung

Zongwei Wu; Jilai Zheng; Xiangxuan Ren; Florin-Alexandru Vasluianu; Chao Ma; Danda Pani Paudel; Luc Van Gool; Radu Timofte
Einzelnes Modell und beliebige Modalität für die Video-Objektverfolgung
Abstract

Im Bereich der Videoobjekterkennung haben sich Nebenmodalitäten wie Tiefendaten, thermische Daten oder Ereignisdaten als wertvolle Ergänzungen zu RGB-Verfolgern etabliert. In der Praxis lernen die meisten bestehenden RGB-Verfolger ein einheitliches Satz von Parametern, um sie über verschiedene Datensätze und Anwendungen hinweg zu verwenden. Eine ähnliche Einheitslösung für die Mehrmodalverfolgung stellt jedoch mehrere Herausforderungen dar. Diese Herausforderungen resultieren aus der inhärenten Heterogenität der Eingaben – jede mit modalspezifischen Darstellungen –, dem Mangel an multivariaten Datensätzen und der fehlenden Verfügbarkeit aller Modalitäten zu jedem Zeitpunkt. In dieser Arbeit stellen wir Un-Track vor, einen vereinheitlichten Verfolger mit einem einzigen Satz von Parametern für jede Modalität. Um jede Modalität zu verarbeiten, lernt unsere Methode ihren gemeinsamen latente Raum durch Techniken der Rangreduktion und Rekonstruktion. Von besonderer Bedeutung ist, dass wir nur die RGB-X-Paare verwenden, um den gemeinsamen latenten Raum zu erlernen. Diese einzigartige geteilte Darstellung verbindet alle Modalitäten nahtlos miteinander, ermöglicht eine effektive Vereinigung und kann auch fehlende Modalitäten berücksichtigen, alles innerhalb einer einzelnen transformerbasierten Architektur. Unser Un-Track erreicht eine absolute F-Score-Zunahme von +8,1 auf dem DepthTrack-Datensatz, indem es lediglich +2,14 (über 21,50) Gigaflops und +6,6 Millionen (über 93 Millionen) Parameter durch eine einfache aber effiziente Prompting-Strategie hinzufügt. Ausführliche Vergleiche auf fünf Benchmark-Datensätzen mit verschiedenen Modalitäten zeigen, dass Un-Track sowohl die besten vereinheitlichten Verfolger als auch die modalspezifischen Kontrahenten übertrifft, was unsere Effektivität und Praktikabilität bestätigt. Der Quellcode ist öffentlich verfügbar unter https://github.com/Zongwei97/UnTrack.