Verbindung der Suchregion-Interaktion mit Vorlage für RGB-T-Verfolgung

RGB-T-Verfolgung zielt darauf ab, die wechselseitige Verbesserung und Ergänzungsfähigkeit der RGB- und TIR-Modalitäten auszunutzen, um den Verfolgungsprozess in verschiedenen Szenarien zu verbessern, wobei die cross-modal Interaktion die zentrale Komponente darstellt. Einige frühere Ansätze verketten die RGB- und TIR-Suchbereichsmerkmale direkt, um einen groben Interaktionsprozess durchzuführen, wobei jedoch redundante Hintergrundstörungen eingeführt werden. Andere Methoden ziehen Kandidatenboxen aus Suchbildern ab und führen verschiedene Fusionsansätze auf isolierten Paaren von RGB- und TIR-Boxen durch, was die cross-modal Interaktion auf lokale Regionen beschränkt und eine unzureichende Kontextmodellierung zur Folge hat. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Template-Bridged Search region Interaction (TBSI)-Modul vor, das Vorlagen als Medium nutzt, um die cross-modal Interaktion zwischen RGB- und TIR-Suchbereichen durch Sammlung und Verteilung von zielrelevanten Objekt- und Umgebungs-Kontexten zu ermöglichen. Zudem werden die ursprünglichen Vorlagen mit angereicherten multimodalen Kontexten aus dem Vorlagen-Medium aktualisiert. Unser TBSI-Modul wird in einen ViT-Backbone integriert, um gemeinsame Merkmalsextraktion, Such-Vorlage-Abgleich und cross-modal Interaktion zu ermöglichen. Umfassende Experimente an drei etablierten RGB-T-Verfolgungsbenchmarks zeigen, dass unsere Methode neue SOTA-Leistungen erzielt. Der Quellcode ist unter https://github.com/RyanHTR/TBSI verfügbar.