HyperAIHyperAI

Command Palette

Search for a command to run...

Bidirektionales Adapter für Multimodales Tracking

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

Aufgrund der raschen Entwicklung der Computer Vision wurde in den letzten Jahren bei der Einzelmodalen (RGB) Objektverfolgung erheblicher Fortschritt erzielt. Angesichts der Einschränkungen einzelner Bildaufnahmesensoren werden multimodale Bilder (RGB, Infrarot usw.) eingeführt, um diese Mängel zu kompensieren und eine Wetterunabhängige Objektverfolgung in komplexen Umgebungen zu ermöglichen. Allerdings ist es schwierig, ausreichend multimodale Verfolgungsdaten zu sammeln, während die dominante Modalität sich mit der offenen Umgebung ändert. Die meisten existierenden Techniken scheitern daran, multimodale ergänzende Informationen dynamisch zu extrahieren, was zu unzufriedenstellenden Verfolgungsleistungen führt. Um dieses Problem anzugehen, schlagen wir ein neues multimodales visuelles Prompt-Verfolgungsmodell vor, das auf einem universellen bidirektionalen Adapter basiert und mehrere Modalitäten gegenseitig miteinander verknüpft. Unser Modell besteht aus einem universellen bidirektionalen Adapter und mehreren modalitätsspezifischen Transformer-Encoder-Zweigen mit geteilten Parametern. Die Encoder extrahieren die Merkmale jeder Modalität separat unter Verwendung eines gefrorenen vorgefertigten Grundmodells. Wir haben einen einfachen aber effektiven leichten Feature-Adapter entwickelt, um modalitätsspezifische Informationen von einer Modalität zur anderen zu übertragen und so die visuelle Feature-Prompt-Fusion auf adaptive Weise durchzuführen. Durch die Hinzufügung weniger (0,32M) trainierbarer Parameter erreicht unser Modell eine überlegene Verfolgungsleistung im Vergleich sowohl zu vollständigen Feintuning-Methoden als auch zu prompt-basierten Lernmethoden. Unser Code ist verfügbar: https://github.com/SparkTempest/BAT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp