Adaptive Perception for Unified Visual Multi-modal Object Tracking

Kürzlich legen viele multimodale Tracker den Fokus auf RGB als dominierende Modalität und betrachten andere Modalitäten lediglich als unterstützende Komponenten, wobei verschiedene multimodale Aufgaben separat feinabgestimmt werden. Diese Ungleichgewichtigkeit im Modalitätsbezug begrenzt die Fähigkeit der Methoden, komplementäre Informationen aus jeder Modalität dynamisch in komplexen Szenarien zu nutzen, was es schwierig macht, die vollen Vorteile der multimodalen Wahrnehmung voll auszuschöpfen. Folglich erzielen oft einheitliche Parametermodelle in verschiedenen multimodalen Tracking-Aufgaben eine unterdurchschnittliche Leistung. Um dieses Problem anzugehen, schlagen wir APTrack vor – einen neuartigen, einheitlichen Tracker für adaptive multimodale Wahrnehmung. Im Gegensatz zu früheren Ansätzen verfolgt APTrack eine gleichberechtigte Modellierung durch eine gleichgewichtete Modellierungsstrategie. Diese Strategie ermöglicht es dem Modell, sich dynamisch an verschiedene Modalitäten und Aufgaben anzupassen, ohne zusätzliche Feinabstimmung zwischen den einzelnen Aufgaben vorzunehmen. Darüber hinaus integriert unser Tracker ein adaptives Modality-Interaction (AMI)-Modul, das Kreuzmodalitäts-Interaktionen effizient durch die Generierung lernbarer Tokens vermittelt. Experimente an fünf unterschiedlichen multimodalen Datensätzen (RGBT234, LasHeR, VisEvent, DepthTrack und VOT-RGBD2022) zeigen, dass APTrack nicht nur bestehende state-of-the-art-Tracker für einheitliche multimodale Aufgaben übertrifft, sondern auch Tracker, die für spezifische multimodale Aufgaben optimiert sind.