Einheitliches einstufiges Transformer-Netzwerk für effizientes RGB-T-Tracking

Die meisten bestehenden RGB-T-Verfolgungsnetze extrahieren die Modalitätsmerkmale getrennt voneinander, was den Austausch und gegenseitigen Leitfaden zwischen den Modalitäten verhindert. Dies begrenzt die Fähigkeit des Netzes, sich an die vielfältigen Erscheinungsformen der Ziele in zwei Modalitäten sowie an die dynamischen Beziehungen zwischen den Modalitäten anzupassen. Zudem beschränkt das von diesen Netzen verwendete dreistufige Fusionierungsverfolgungsschema erheblich die Verfolgungsgeschwindigkeit. Um diese Probleme zu überwinden, schlagen wir ein vereintes einstufiges Transformer-RGB-T-Verfolgungsnetz vor, nämlich USTrack, das die obengenannten drei Stufen in einen einzigen ViT (Vision Transformer)-Backbone mit einer Dual-Embedding-Schicht durch Mechanismus der Selbst-Aufmerksamkeit vereint. Mit dieser Struktur kann das Netz unter dem gegenseitigen Einfluss der Modalitäten Fusionsmerkmale des Vorlagen- und Suchbereichs extrahieren. Gleichzeitig wird eine Relationenmodellierung zwischen diesen Merkmalen durchgeführt, wodurch effizient die Fusionsmerkmale des Suchbereichs mit besserer Unterscheidbarkeit zwischen Ziel und Hintergrund für die Vorhersage gewonnen werden können. Darüber hinaus führen wir einen neuen Merkmalsselektionsmechanismus auf Basis der Modalitätszuverlässigkeit ein, um den Einfluss ungültiger Modalitäten für die Vorhersage zu reduzieren und damit die Verfolgungsleistung weiter zu verbessern. Ausführliche Experimente anhand dreier gängiger RGB-T-Verfolgungsbenchmarks zeigen, dass unsere Methode neue Standarts in der Leistung erreicht, während sie gleichzeitig die schnellste Inferenzgeschwindigkeit von 84,2 FPS aufweist. Insbesondere stiegen MPR/MSR (Mean Precision Rate/Mean Success Rate) in den Kurz- und Langzeituntermengen des VTUAV-Datensatzes um 11,1 %/11,7 % und 11,3 %/9,7 %.