vor 2 Monaten

Cross-modulierte Attention Transformer für RGBT-Verfolgung

Yun Xiao; Jiacong Zhao; Andong Lu; Chenglong Li; Yin Lin; Bing Yin; Cong Liu

Abstract

Bestehende transformerbasierte RGBT-Verfolgungssysteme erzielen durch die Nutzung von Selbst-Aufmerksamkeit zur Extraktion unimodaler Merkmale und Kreuz-Aufmerksamkeit zur Verbesserung multimodaler Merkmalsinteraktionen sowie der Korrelationsberechnung zwischen Vorlage und Suchbereich bemerkenswerte Leistungsverbesserungen. Dennoch ignorieren die unabhängigen Berechnungen der Korrelation zwischen Suchbereich und Vorlage die Konsistenz zwischen den Zweigen, was zu unscharfen und unangemessenen Korrelationsgewichten führen kann. Dies begrenzt nicht nur die Darstellung intramodaler Merkmale, sondern beeinträchtigt auch die Robustheit der Kreuz-Aufmerksamkeit für multimodale Merkmalsinteraktionen und die Korrelationsberechnung zwischen Vorlage und Suchbereich. Um diese Probleme zu lösen, schlagen wir einen neuen Ansatz vor, den Cross-modulated Attention Transformer (CAFormer), der intramodale Selbstkorrelation, intermodale Merkmalsinteraktionen und die Korrelationsberechnung zwischen Vorlage und Suchbereich in einem vereinheitlichten Aufmerksamkeitsmodell für RGBT-Verfolgung durchführt. Insbesondere generieren wir zunächst unabhängig für jede Modalität Korrelationskarten und füttern diese in das entwickelte Korrelationsmoduliertes Verbesserungsmodul (Correlation Modulated Enhancement module), um durch die Suche nach Übereinstimmungen zwischen den Modalitäten ungenaue Korrelationsgewichte zu modulieren. Diese Art von Design vereint Selbst-Aufmerksamkeit und Kreuz-Aufmerksamkeit, was nicht nur die ungenaue Berechnung von Aufmerksamkeitsgewichten in der Selbst-Aufmerksamkeit lindert, sondern auch überflüssige Berechnungen durch ein zusätzliches Kreuz-Aufmerksamkeitsmodell eliminiert. Zudem schlagen wir eine kollaborative Token-Eliminationsstrategie vor, um die Effizienz und Genauigkeit der Verfolgungsinferenz weiter zu verbessern. Ausführliche Experimente auf fünf öffentlichen RGBT-Verfolgungsbenchmarks zeigen die herausragende Leistung des vorgeschlagenen CAFormer im Vergleich zu den besten bisher bekannten Methoden.