OneTracker: Vereinheitlichung der visuellen Objektverfolgung durch Fundierungsmodelle und effizientes Feinjustieren

Die visuelle Objektverfolgung (Visual Object Tracking) hat das Ziel, das zu verfolgende Zielobjekt in jedem Bildausschnitt basierend auf seiner anfänglichen Erscheinung im ersten Bildausschnitt zu lokalisieren. Je nach Eingabemodalität können Verfolgungsaufgaben in RGB-Verfolgung und RGB+X-Verfolgung (z.B. RGB+N und RGB+D) unterteilt werden. Trotz der unterschiedlichen Eingabemodalitäten ist die zentrale Aspekt der Verfolgung die zeitliche Zuordnung (temporal matching). Auf dieser gemeinsamen Grundlage präsentieren wir ein allgemeines Framework zur Vereinheitlichung verschiedener Verfolgungsaufgaben, welches als OneTracker bezeichnet wird.OneTracker führt zunächst eine groß angelegte Vorabtrainingsphase (large-scale pre-training) durch, bei der ein RGB-Tracker namens Foundation Tracker trainiert wird. Diese Vorabtrainingsphase verleiht dem Foundation Tracker eine stabile Fähigkeit zur Schätzung der Position des Zielobjekts. Anschließend betrachten wir Informationen anderer Modalitäten als Prompt und bauen daraufhin den Prompt Tracker auf dem Foundation Tracker auf. Durch das Fixieren des Foundation Trackers und nur das Anpassen einiger zusätzlicher trainierbarer Parameter erreicht der Prompt Tracker die starke Lokalisierungsfähigkeit des Foundation Trackers und ermöglicht eine parameter-effiziente Feinabstimmung (fine-tuning) für nachgeschaltete RGB+X-Verfolgungsaufgaben.Um die Effektivität unseres allgemeinen Frameworks OneTracker, das aus dem Foundation Tracker und dem Prompt Tracker besteht, zu bewerten, führen wir umfangreiche Experimente auf sechs gängigen Verfolgungsaufgaben über elf Benchmarks durch. Dabei übertrifft unser OneTracker andere Modelle und erzielt den aktuellen Stand der Technik (state-of-the-art performance).