HyperAIHyperAI
vor 2 Monaten

RGBT-Verfolgung durch ein Multi-Adapter-Netzwerk mit hierarchischem Divergenzverlust

Andong Lu; Chenglong Li; Yuqing Yan; Jin Tang; Bin Luo
RGBT-Verfolgung durch ein Multi-Adapter-Netzwerk mit hierarchischem Divergenzverlust
Abstract

Die RGBT-Verfolgung (RGB und thermische Infrarotdaten) hat in den letzten Jahren zunehmend an Bedeutung gewonnen, da diese Daten starke komplementäre Vorteile bieten, die es ermöglichen, Verfolgungsgeräte für den 24-Stunden-Betrieb und unter allen Wetterbedingungen zu nutzen. Allerdings ist die effektive Darstellung von RGBT-Daten für die visuelle Verfolgung noch nicht ausreichend erforscht. Bestehende Arbeiten konzentrieren sich in der Regel auf das Extrahieren von modalitätsübergreifenden oder modalitätsspezifischen Informationen, aber das Potenzial dieser beiden Ansätze wird in der RGBT-Verfolgung noch nicht vollständig genutzt.In diesem Artikel schlagen wir ein neues Multi-Adapter-Netzwerk vor, das zur gemeinsamen Modellierung von modalitätsübergreifenden, modalitätsspezifischen und instanzbewussten Zielrepräsentationen in der RGBT-Verfolgung dient. Dazu haben wir innerhalb eines end-to-end tiefen Lernframeworks drei Arten von Adaptern entwickelt. Im Speziellen verwenden wir eine modifizierte VGG-M als Generaladapter, um modalitätsübergreifende Zielrepräsentationen zu extrahieren.Um modalitätsspezifische Merkmale zu extrahieren und gleichzeitig die Rechenaufwandskomplexität zu reduzieren, haben wir einen Modalitätsadapter entworfen. Dieser fügt in jeder Schicht und für jede Modalität parallel einen kleinen Block zum Generaladapter hinzu. Diese Designentscheidung ermöglicht es, mehrstufige modalitätsspezifische Repräsentationen mit einer moderaten Anzahl von Parametern zu lernen, da die Mehrheit der Parameter mit dem Generaladapter geteilt wird.Des Weiteren haben wir einen Instanzadapter entwickelt, um die Erscheinungseigenschaften und zeitlichen Variationen eines bestimmten Ziels zu erfassen. Um zudem die modalitätsübergreifenden und -spezifischen Merkmale zu verbessern, setzen wir den Verlust des multi-kernel maximalen Mittelwertdifferenzmaßes (multiple kernel maximum mean discrepancy) ein. Dieser dient dazu, die Verteilungsdivergenz verschiedener Modalitätsmerkmale zu messen und wird in jede Schicht integriert, um das robuste Lernen von Repräsentationen sicherzustellen.Ausführliche Experimente auf zwei Benchmark-Datensätzen für RGBT-Verfolgung zeigen die herausragende Leistung des vorgeschlagenen Trackers im Vergleich zu den bislang besten Methoden.

RGBT-Verfolgung durch ein Multi-Adapter-Netzwerk mit hierarchischem Divergenzverlust | Neueste Forschungsarbeiten | HyperAI