HyperAIHyperAI
vor 2 Monaten

Bidirektionales Adapter für Multimodales Tracking

Bing Cao; Junliang Guo; Pengfei Zhu; Qinghua Hu
Bidirektionales Adapter für Multimodales Tracking
Abstract

Aufgrund der raschen Entwicklung der Computer Vision wurde in den letzten Jahren bei der Einzelmodalen (RGB) Objektverfolgung erheblicher Fortschritt erzielt. Angesichts der Einschränkungen einzelner Bildaufnahmesensoren werden multimodale Bilder (RGB, Infrarot usw.) eingeführt, um diese Mängel zu kompensieren und eine Wetterunabhängige Objektverfolgung in komplexen Umgebungen zu ermöglichen. Allerdings ist es schwierig, ausreichend multimodale Verfolgungsdaten zu sammeln, während die dominante Modalität sich mit der offenen Umgebung ändert. Die meisten existierenden Techniken scheitern daran, multimodale ergänzende Informationen dynamisch zu extrahieren, was zu unzufriedenstellenden Verfolgungsleistungen führt. Um dieses Problem anzugehen, schlagen wir ein neues multimodales visuelles Prompt-Verfolgungsmodell vor, das auf einem universellen bidirektionalen Adapter basiert und mehrere Modalitäten gegenseitig miteinander verknüpft. Unser Modell besteht aus einem universellen bidirektionalen Adapter und mehreren modalitätsspezifischen Transformer-Encoder-Zweigen mit geteilten Parametern. Die Encoder extrahieren die Merkmale jeder Modalität separat unter Verwendung eines gefrorenen vorgefertigten Grundmodells. Wir haben einen einfachen aber effektiven leichten Feature-Adapter entwickelt, um modalitätsspezifische Informationen von einer Modalität zur anderen zu übertragen und so die visuelle Feature-Prompt-Fusion auf adaptive Weise durchzuführen. Durch die Hinzufügung weniger (0,32M) trainierbarer Parameter erreicht unser Modell eine überlegene Verfolgungsleistung im Vergleich sowohl zu vollständigen Feintuning-Methoden als auch zu prompt-basierten Lernmethoden. Unser Code ist verfügbar: https://github.com/SparkTempest/BAT.

Bidirektionales Adapter für Multimodales Tracking | Neueste Forschungsarbeiten | HyperAI