Effiziente RGB-T-Verfolgung durch Cross-Modality-Distillation

Die meisten aktuellen RGB-T-Tracker verwenden eine Zwei-Stream-Architektur, um unimodale RGB- und Wärmebildmerkmale zu extrahieren, sowie komplexe Fusionsstrategien zur Realisierung einer multimodalen Merkmalsfusion. Diese Ansätze erfordern eine enorme Anzahl an Parametern und behindern somit ihre Anwendung im realen Einsatz. Andererseits kann ein kompakter RGB-T-Tracker rechnerisch effizient sein, jedoch eine nicht vernachlässigbare Leistungsverschlechterung aufweisen, da die Fähigkeit zur Merkmalsdarstellung geschwächt wird. Um dieses Problem zu beheben, wird ein cross-modaler Distillation-Framework vorgestellt, um die Leistungsunterschiede zwischen einem kompakten und einem leistungsfähigen Tracker zu verringern. Konkret wird ein Modul für spezifisch-gemeinsame Merkmalsdistillation vorgeschlagen, das sowohl modality- gemeinsame als auch modality-spezifische Informationen aus einem tieferen Zwei-Stream-Netzwerk in ein flacheres Ein-Stream-Netzwerk überträgt. Zudem wird ein Multi-Path-Auswahl-Distillation-Modul eingeführt, das ein einfaches Fusionsmodul anleitet, präzisere multimodale Informationen aus einem gut gestalteten Fusionsmechanismus über mehrere Pfade zu lernen. Die Wirksamkeit unserer Methode wird durch umfangreiche Experimente an drei RGB-T-Benchmarks validiert und erreicht dabei einen Stand der Technik, wobei jedoch deutlich geringere rechnerische Ressourcen verbraucht werden.