HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptive Perception for Unified Visual Multi-modal Object Tracking

Xiantao Hu Bineng Zhong Qihua Liang Zhiyi Mo Liangtao Shi Ying Tai Jian Yang

Zusammenfassung

Kürzlich legen viele multimodale Tracker den Fokus auf RGB als dominierende Modalität und betrachten andere Modalitäten lediglich als unterstützende Komponenten, wobei verschiedene multimodale Aufgaben separat feinabgestimmt werden. Diese Ungleichgewichtigkeit im Modalitätsbezug begrenzt die Fähigkeit der Methoden, komplementäre Informationen aus jeder Modalität dynamisch in komplexen Szenarien zu nutzen, was es schwierig macht, die vollen Vorteile der multimodalen Wahrnehmung voll auszuschöpfen. Folglich erzielen oft einheitliche Parametermodelle in verschiedenen multimodalen Tracking-Aufgaben eine unterdurchschnittliche Leistung. Um dieses Problem anzugehen, schlagen wir APTrack vor – einen neuartigen, einheitlichen Tracker für adaptive multimodale Wahrnehmung. Im Gegensatz zu früheren Ansätzen verfolgt APTrack eine gleichberechtigte Modellierung durch eine gleichgewichtete Modellierungsstrategie. Diese Strategie ermöglicht es dem Modell, sich dynamisch an verschiedene Modalitäten und Aufgaben anzupassen, ohne zusätzliche Feinabstimmung zwischen den einzelnen Aufgaben vorzunehmen. Darüber hinaus integriert unser Tracker ein adaptives Modality-Interaction (AMI)-Modul, das Kreuzmodalitäts-Interaktionen effizient durch die Generierung lernbarer Tokens vermittelt. Experimente an fünf unterschiedlichen multimodalen Datensätzen (RGBT234, LasHeR, VisEvent, DepthTrack und VOT-RGBD2022) zeigen, dass APTrack nicht nur bestehende state-of-the-art-Tracker für einheitliche multimodale Aufgaben übertrifft, sondern auch Tracker, die für spezifische multimodale Aufgaben optimiert sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Adaptive Perception for Unified Visual Multi-modal Object Tracking | Paper | HyperAI