HyperAIHyperAI
vor 2 Monaten

SDSTrack: Selbst-Destillierung symmetrisches Adapterlernen für die mehrmodal visuelle Objektverfolgung

Xiaojun Hou; Jiazheng Xing; Yijie Qian; Yaowei Guo; Shuo Xin; Junhao Chen; Kai Tang; Mengmeng Wang; Zhengkai Jiang; Liang Liu; Yong Liu
SDSTrack: Selbst-Destillierung symmetrisches Adapterlernen für die mehrmodal visuelle Objektverfolgung
Abstract

Die multimodale visuelle Objektverfolgung (VOT) hat aufgrund ihrer Robustheit in letzter Zeit erhebliche Aufmerksamkeit gefunden. Frühe Forschungen konzentrierten sich auf die vollständige Feinabstimmung von RGB-basierten Trackern, was ineffizient war und aufgrund der Knappheit multimodaler Daten eine generalisierte Darstellung vermisste. Daher haben jüngere Studien Prompt-Tuning genutzt, um vortrainierte RGB-basierte Tracker auf multimodale Daten zu übertragen. Dennoch begrenzt der Modalitätsunterschied das Abrufen vortrainierten Wissens, und die Dominanz des RGB-Modus bleibt bestehen, was die vollständige Nutzung von Informationen aus anderen Modalitäten verhindert. Um diese Probleme zu lösen, schlagen wir ein neues symmetrisches multimodales Tracking-Framework namens SDSTrack vor. Wir führen eine leichte Anpassung für effizientes Feinabstimmung ein, die die Fähigkeit zur Merkmalsextraktion direkt von RGB auf andere Bereiche mit einer geringen Anzahl von trainierbaren Parametern überträgt und multimodale Merkmale in einem ausgewogenen, symmetrischen Verhältnis integriert. Des Weiteren entwickeln wir eine komplementäre Maskierte-Patch-Destillationsstrategie, um die Robustheit der Tracker in komplexen Umgebungen wie Extremwetter, schlechte Bildgebung und Sensorausfälle zu verbessern. Ausführliche Experimente zeigen, dass SDSTrack in verschiedenen multimodalen Tracking-Szenarien, einschließlich RGB+Tiefe, RGB+Thermisch und RGB+Ereignis-Tracking, den Stand der Technik übertreffen kann und beeindruckende Ergebnisse unter extremen Bedingungen erzielt. Unser Quellcode ist unter https://github.com/hoqolo/SDSTrack verfügbar.

SDSTrack: Selbst-Destillierung symmetrisches Adapterlernen für die mehrmodal visuelle Objektverfolgung | Neueste Forschungsarbeiten | HyperAI