Multi-Modale Fusion für die end-to-end RGB-T-Verfolgung

Wir schlagen ein end-to-end Tracking-Framework vor, das die Fusion der RGB- und TIR-Modalitäten (Thermal Infrared) im RGB-T-Tracking ermöglicht. Unser Basistracker ist DiMP (Discriminative Model Prediction), der ein sorgfältig konzipiertes Zielvorhersagenetzwerk verwendet, das mit einem diskriminativen Verlust end-to-end trainiert wird. Wir analysieren die Effektivität der Modalitätsfusion in den Hauptkomponenten von DiMP, nämlich dem Feature-Extractor, dem Zielabschätzungsnetzwerk und dem Klassifizierer. Dabei betrachten wir mehrere Fusionmechanismen, die auf verschiedenen Ebenen des Frameworks wirken, einschließlich Pixel-Level, Feature-Level und Response-Level. Unser Tracker wird ebenfalls end-to-end trainiert, was es den Komponenten ermöglicht, zu lernen, wie sie Informationen aus beiden Modalitäten fusionieren. Als Trainingsdaten für unser Modell generieren wir einen groß angelegten RGB-T-Datensatz unter Berücksichtigung eines annotierten RGB-Tracking-Datensatzes (GOT-10k) und durch Synthese von gepaarten TIR-Bildern unter Verwendung eines Bild-zu-Bild-Übersetzungsmethoden. Wir führen umfangreiche Experimente auf dem VOT-RGBT2019-Datensatz und dem RGBT210-Datensatz durch und bewerten dabei jede Art von Modalitätsfusion in jeder Modellkomponente. Die Ergebnisse zeigen, dass die vorgeschlagenen Fusionmechanismen die Leistung der Einzelmodalitäts-Varianten verbessern. Unsere besten Ergebnisse erzielen wir bei der Fusion auf Feature-Level sowohl im IoU-Net als auch im Modellprädiktor, wobei wir einen EAO-Wert von 0.391 auf dem VOT-RGBT2019-Datensatz erreichen. Mit diesem Fusionmechanismus erreichen wir den Stand der Technik auf dem RGBT210-Datensatz.