HyperAIHyperAI

Command Palette

Search for a command to run...

Einzelnes Modell und beliebige Modalität für die Video-Objektverfolgung

Zongwei Wu Jilai Zheng Xiangxuan Ren Florin-Alexandru Vasluianu Chao Ma* Danda Pani Paudel Luc Van Gool Radu Timofte

Zusammenfassung

Im Bereich der Videoobjekterkennung haben sich Nebenmodalitäten wie Tiefendaten, thermische Daten oder Ereignisdaten als wertvolle Ergänzungen zu RGB-Verfolgern etabliert. In der Praxis lernen die meisten bestehenden RGB-Verfolger ein einheitliches Satz von Parametern, um sie über verschiedene Datensätze und Anwendungen hinweg zu verwenden. Eine ähnliche Einheitslösung für die Mehrmodalverfolgung stellt jedoch mehrere Herausforderungen dar. Diese Herausforderungen resultieren aus der inhärenten Heterogenität der Eingaben – jede mit modalspezifischen Darstellungen –, dem Mangel an multivariaten Datensätzen und der fehlenden Verfügbarkeit aller Modalitäten zu jedem Zeitpunkt. In dieser Arbeit stellen wir Un-Track vor, einen vereinheitlichten Verfolger mit einem einzigen Satz von Parametern für jede Modalität. Um jede Modalität zu verarbeiten, lernt unsere Methode ihren gemeinsamen latente Raum durch Techniken der Rangreduktion und Rekonstruktion. Von besonderer Bedeutung ist, dass wir nur die RGB-X-Paare verwenden, um den gemeinsamen latenten Raum zu erlernen. Diese einzigartige geteilte Darstellung verbindet alle Modalitäten nahtlos miteinander, ermöglicht eine effektive Vereinigung und kann auch fehlende Modalitäten berücksichtigen, alles innerhalb einer einzelnen transformerbasierten Architektur. Unser Un-Track erreicht eine absolute F-Score-Zunahme von +8,1 auf dem DepthTrack-Datensatz, indem es lediglich +2,14 (über 21,50) Gigaflops und +6,6 Millionen (über 93 Millionen) Parameter durch eine einfache aber effiziente Prompting-Strategie hinzufügt. Ausführliche Vergleiche auf fünf Benchmark-Datensätzen mit verschiedenen Modalitäten zeigen, dass Un-Track sowohl die besten vereinheitlichten Verfolger als auch die modalspezifischen Kontrahenten übertrifft, was unsere Effektivität und Praktikabilität bestätigt. Der Quellcode ist öffentlich verfügbar unter https://github.com/Zongwei97/UnTrack.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Einzelnes Modell und beliebige Modalität für die Video-Objektverfolgung | Paper | HyperAI