Transformer-basierte RGB-T-Verfolgung mit Kanal- und Ortsmerkmalenfusion

Die bessere Fusion von multimodalen Merkmalen ist das Kernproblem der RGB-T-Verfolgung. Einige frühere Methoden fuhren entweder zu einer unzureichenden Fusion von RGB- und TIR-Merkmalen oder hingen von Vermittlern ab, die Informationen aus beiden Modalitäten enthalten, um die Interaktion zwischen multimodalen Informationen zu erreichen. Erstere nutzen das Potenzial der Verwendung von nur RGB- und TIR-Informationen des Vorlagen- oder Suchbereichs für die Kanalfusion und räumliche Merkmalsfusion nicht vollständig aus, während Letztere eine direkte Interaktion zwischen Vorlage und Suchbereich vermissen lassen, was die Fähigkeit des Modells einschränkt, die ursprünglichen semantischen Informationen beider Modalitäten vollständig zu nutzen. Um diese Einschränkungen zu mildern, untersuchen wir, wie man die Leistung eines visuellen Transformers durch direkte Fusion von multimodalen Kanälen und räumlichen Merkmalen verbessern kann, und schlagen CSTNet vor. CSTNet verwendet ViT als Backbone und fügt Module zur Fusion von multimodalen Kanalmerkmalen (CFM) und Module zur Fusion von multimodalen räumlichen Merkmalen (SFM) ein, um eine direkte Interaktion zwischen RGB- und TIR-Merkmalen zu ermöglichen. Das CFM führt parallele kanalbezogene Verbesserungen sowie mehrstufige räumliche Merkmalsmodelle für RGB- und TIR-Merkmale durch und summiert diese Merkmale, bevor es die Summenmerkmale global mit den ursprünglichen Merkmalen integriert. Das SFM nutzt Kreuzaufmerksamkeit (cross-attention), um die räumliche Beziehung zwischen multimodalen Merkmalen zu modellieren, und führt dann ein konvolutionsbasiertes Feedforward-Netzwerk ein, um gemeinsam räumliche und kanalbezogene Integration mehrmodaler Merkmale durchzuführen. Wir retrains das Modell mit CSNet als Vorgewichtung im Modell ohne CFM und SFM und schlagen CSTNet-small vor, das eine Reduktion der Parameter um 36 %, eine Reduktion der Flops um 24 % sowie eine Beschleunigung um 50 % bei einer Leistungsabnahme von 1-2 % erreicht. Umfassende Experimente zeigen, dass CSTNet auf drei öffentlichen RGB-T-Verfolgungsbenchmarks Spitzenleistungen erzielt. Der Quellcode ist unter https://github.com/LiYunfengLYF/CSTNet verfügbar.