HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-modulierte Attention Transformer für RGBT-Verfolgung

Yun Xiao Jiacong Zhao Andong Lu Chenglong Li Yin Lin Bing Yin Cong Liu

Zusammenfassung

Bestehende transformerbasierte RGBT-Verfolgungssysteme erzielen durch die Nutzung von Selbst-Aufmerksamkeit zur Extraktion unimodaler Merkmale und Kreuz-Aufmerksamkeit zur Verbesserung multimodaler Merkmalsinteraktionen sowie der Korrelationsberechnung zwischen Vorlage und Suchbereich bemerkenswerte Leistungsverbesserungen. Dennoch ignorieren die unabhängigen Berechnungen der Korrelation zwischen Suchbereich und Vorlage die Konsistenz zwischen den Zweigen, was zu unscharfen und unangemessenen Korrelationsgewichten führen kann. Dies begrenzt nicht nur die Darstellung intramodaler Merkmale, sondern beeinträchtigt auch die Robustheit der Kreuz-Aufmerksamkeit für multimodale Merkmalsinteraktionen und die Korrelationsberechnung zwischen Vorlage und Suchbereich. Um diese Probleme zu lösen, schlagen wir einen neuen Ansatz vor, den Cross-modulated Attention Transformer (CAFormer), der intramodale Selbstkorrelation, intermodale Merkmalsinteraktionen und die Korrelationsberechnung zwischen Vorlage und Suchbereich in einem vereinheitlichten Aufmerksamkeitsmodell für RGBT-Verfolgung durchführt. Insbesondere generieren wir zunächst unabhängig für jede Modalität Korrelationskarten und füttern diese in das entwickelte Korrelationsmoduliertes Verbesserungsmodul (Correlation Modulated Enhancement module), um durch die Suche nach Übereinstimmungen zwischen den Modalitäten ungenaue Korrelationsgewichte zu modulieren. Diese Art von Design vereint Selbst-Aufmerksamkeit und Kreuz-Aufmerksamkeit, was nicht nur die ungenaue Berechnung von Aufmerksamkeitsgewichten in der Selbst-Aufmerksamkeit lindert, sondern auch überflüssige Berechnungen durch ein zusätzliches Kreuz-Aufmerksamkeitsmodell eliminiert. Zudem schlagen wir eine kollaborative Token-Eliminationsstrategie vor, um die Effizienz und Genauigkeit der Verfolgungsinferenz weiter zu verbessern. Ausführliche Experimente auf fünf öffentlichen RGBT-Verfolgungsbenchmarks zeigen die herausragende Leistung des vorgeschlagenen CAFormer im Vergleich zu den besten bisher bekannten Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp