Modality-Lücke in der RGBT-Verfolgung überwinden: Kopplung von Wissensdistillierung

Der Modalitätsunterschied zwischen RGB- und thermischen Infrarot-(TIR)-Bildern ist ein entscheidendes Problem, das in den existierenden RGBT-Verfolgungsmethoden jedoch oft übersehen wird. Dieser Unterschied manifestiert sich hauptsächlich in der Stilunterschiedlichkeit der Bilder. In dieser Arbeit schlagen wir einen neuen Rahmen für gekoppeltes Wissensdistillierungsvorgehen vor, genannt CKD (Coupled Knowledge Distillation), der gemeinsame Stile verschiedener Modalitäten anstrebt, um den Modalitätsunterschied zu überwinden und eine leistungsstarke RGBT-Verfolgung zu ermöglichen. Insbesondere führen wir zwei Schüler-Netzwerke ein und verwenden den Stilverlust zur Distillierung, um ihre Stilmerkmale so weit wie möglich konsistent zu machen. Durch die Milderung des stilistischen Unterschieds zwischen den beiden Schüler-Netzwerken können wir den Modalitätsunterschied verschiedener Modalitäten gut überwinden. Allerdings könnte die Distillierung von Stilmerkmalen den Inhaltsrepräsentationen der beiden Modalitäten in den Schüler-Netzwerken schaden. Um dieses Problem zu lösen, verwenden wir die ursprünglichen RGB- und TIR-Netzwerke als Lehrer und distillieren ihr Inhaltswissen jeweils in die beiden Schüler-Netzwerke durch ein Schema zur orthogonalen Merkmalsentkopplung von Stil und Inhalt. Wir koppeln die beiden oben genannten Distillierungsprozesse in einem Online-Optimierungsrahmen, um neue Merkmalsrepräsentationen von RGB- und thermischen Modalitäten ohne Modalitätsunterschied zu bilden. Darüber hinaus integrieren wir eine maskierte Modellstrategie sowie eine Strategie zur Eliminierung multimodaler Kandidatentoken in das CKD, um die Verfolgungsrobustheit und -effizienz jeweils zu verbessern. Ausführliche Experimente auf fünf standardisierten RGBT-Verfolgungsdatensätzen bestätigen die Effektivität der vorgeschlagenen Methode im Vergleich mit den neuesten Methoden, während sie gleichzeitig die schnellste Verfolgungsgeschwindigkeit von 96,4 FPS erreicht. Der Quellcode ist unter https://github.com/Multi-Modality-Tracking/CKD verfügbar.