HyperAIHyperAI

Command Palette

Search for a command to run...

Modality-Lücke in der RGBT-Verfolgung überwinden: Kopplung von Wissensdistillierung

Zhang, Xiaoxiao Li, Zhihong Wang, Yuyang Zhang, Shengqiang

Zusammenfassung

Der Modalitätsunterschied zwischen RGB- und thermischen Infrarot-(TIR)-Bildern ist ein entscheidendes Problem, das in den existierenden RGBT-Verfolgungsmethoden jedoch oft übersehen wird. Dieser Unterschied manifestiert sich hauptsächlich in der Stilunterschiedlichkeit der Bilder. In dieser Arbeit schlagen wir einen neuen Rahmen für gekoppeltes Wissensdistillierungsvorgehen vor, genannt CKD (Coupled Knowledge Distillation), der gemeinsame Stile verschiedener Modalitäten anstrebt, um den Modalitätsunterschied zu überwinden und eine leistungsstarke RGBT-Verfolgung zu ermöglichen. Insbesondere führen wir zwei Schüler-Netzwerke ein und verwenden den Stilverlust zur Distillierung, um ihre Stilmerkmale so weit wie möglich konsistent zu machen. Durch die Milderung des stilistischen Unterschieds zwischen den beiden Schüler-Netzwerken können wir den Modalitätsunterschied verschiedener Modalitäten gut überwinden. Allerdings könnte die Distillierung von Stilmerkmalen den Inhaltsrepräsentationen der beiden Modalitäten in den Schüler-Netzwerken schaden. Um dieses Problem zu lösen, verwenden wir die ursprünglichen RGB- und TIR-Netzwerke als Lehrer und distillieren ihr Inhaltswissen jeweils in die beiden Schüler-Netzwerke durch ein Schema zur orthogonalen Merkmalsentkopplung von Stil und Inhalt. Wir koppeln die beiden oben genannten Distillierungsprozesse in einem Online-Optimierungsrahmen, um neue Merkmalsrepräsentationen von RGB- und thermischen Modalitäten ohne Modalitätsunterschied zu bilden. Darüber hinaus integrieren wir eine maskierte Modellstrategie sowie eine Strategie zur Eliminierung multimodaler Kandidatentoken in das CKD, um die Verfolgungsrobustheit und -effizienz jeweils zu verbessern. Ausführliche Experimente auf fünf standardisierten RGBT-Verfolgungsdatensätzen bestätigen die Effektivität der vorgeschlagenen Methode im Vergleich mit den neuesten Methoden, während sie gleichzeitig die schnellste Verfolgungsgeschwindigkeit von 96,4 FPS erreicht. Der Quellcode ist unter https://github.com/Multi-Modality-Tracking/CKD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Modality-Lücke in der RGBT-Verfolgung überwinden: Kopplung von Wissensdistillierung | Paper | HyperAI