vor 8 Monaten

Zusammenfassung

Aufgrund der raschen Entwicklung der Computer Vision wurde in den letzten Jahren bei der Einzelmodalen (RGB) Objektverfolgung erheblicher Fortschritt erzielt. Angesichts der Einschränkungen einzelner Bildaufnahmesensoren werden multimodale Bilder (RGB, Infrarot usw.) eingeführt, um diese Mängel zu kompensieren und eine Wetterunabhängige Objektverfolgung in komplexen Umgebungen zu ermöglichen. Allerdings ist es schwierig, ausreichend multimodale Verfolgungsdaten zu sammeln, während die dominante Modalität sich mit der offenen Umgebung ändert. Die meisten existierenden Techniken scheitern daran, multimodale ergänzende Informationen dynamisch zu extrahieren, was zu unzufriedenstellenden Verfolgungsleistungen führt. Um dieses Problem anzugehen, schlagen wir ein neues multimodales visuelles Prompt-Verfolgungsmodell vor, das auf einem universellen bidirektionalen Adapter basiert und mehrere Modalitäten gegenseitig miteinander verknüpft. Unser Modell besteht aus einem universellen bidirektionalen Adapter und mehreren modalitätsspezifischen Transformer-Encoder-Zweigen mit geteilten Parametern. Die Encoder extrahieren die Merkmale jeder Modalität separat unter Verwendung eines gefrorenen vorgefertigten Grundmodells. Wir haben einen einfachen aber effektiven leichten Feature-Adapter entwickelt, um modalitätsspezifische Informationen von einer Modalität zur anderen zu übertragen und so die visuelle Feature-Prompt-Fusion auf adaptive Weise durchzuführen. Durch die Hinzufügung weniger (0,32M) trainierbarer Parameter erreicht unser Modell eine überlegene Verfolgungsleistung im Vergleich sowohl zu vollständigen Feintuning-Methoden als auch zu prompt-basierten Lernmethoden. Unser Code ist verfügbar: https://github.com/SparkTempest/BAT.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Bidirektionales Adapter für Multimodales Tracking

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bidirektionales Adapter für Multimodales Tracking

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bidirektionales Adapter für Multimodales Tracking

Bing Cao Junliang Guo Pengfei Zhu* Qinghua Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters