vor 2 Monaten

RGB-T Verfolgung durch multimodales gegenseitiges Prompt-Lernen

Yang Luo; Xiqing Guo; Hui Feng; Lei Ao

Abstract

Die Objektverfolgung auf der Grundlage der Fusion von sichtbaren und thermischen Bildern, auch als RGB-T-Verfolgung bekannt, hat in den letzten Jahren zunehmendes Interesse von Forschern gefunden. Die Herausforderung besteht darin, eine umfassendere Fusion der Informationen aus beiden Modalitäten mit geringeren Rechenkosten zu erreichen, ein Problem, das die Forscher intensiv erforschen. Kürzlich hat sich das prompt-basierte Lernen im Bereich der Computer Vision durchgesetzt, wodurch Wissen von großen visuellen Modellen effizient auf nachgelagerte Aufgaben übertragen werden kann. Angesichts der starken Komplementarität zwischen sichtbaren und thermischen Modalitäten schlagen wir eine Verfolgungsarchitektur vor, die auf gegenseitigem prompt-basiertem Lernen zwischen den beiden Modalitäten basiert. Zudem haben wir einen leichten Prompter entwickelt, der Aufmerksamkeitsmechanismen in zwei Dimensionen integriert, um Informationen von einer Modalität zur anderen mit geringeren Rechenkosten zu übertragen und diesen in jede Schicht des Backbones einzubinden. Umfangreiche Experimente haben gezeigt, dass unsere vorgeschlagene Verfolgungsarchitektur sowohl effektiv als auch effizient ist und state-of-the-art-Leistungen erzielt, während sie gleichzeitig hohe Laufzeiten aufrechterhält.