vor 11 Tagen

MixFormer: End-to-End-Verfolgung mit iterativem gemischttem Attention

Yutao Cui, Cheng Jiang, Gangshan Wu, Limin Wang

Abstract

Visual Object Tracking verwendet häufig eine mehrstufige Pipeline, die aus Merkmalsextraktion, Integration von Zielinformationen und Schätzung von Bounding Boxes besteht. Um diese Pipeline zu vereinfachen und den Prozess der Merkmalsextraktion sowie der Integration von Zielinformationen zu vereinheitlichen, stellen wir in diesem Artikel einen kompakten Tracking-Framework namens MixFormer vor, der auf Transformers basiert. Unser zentrales Design nutzt die Flexibilität von Aufmerksamkeitsoperationen und führt ein Mixed Attention Module (MAM) ein, das gleichzeitig Merkmalsextraktion und Integration von Zielinformationen ermöglicht. Dieses synchrone Modellierungsverfahren erlaubt die Extraktion zielgerichteter, differenzierender Merkmale sowie eine umfassende Kommunikation zwischen Ziel- und Suchbereich. Auf Basis des MAM bauen wir unsere MixFormer-Tracker einfach durch Stapeln mehrerer MAMs und Hinzufügen eines Lokalisierungs-Kopfes auf. Konkret instanziieren wir zwei Arten von MixFormer-Trackern: einen hierarchischen Tracker namens MixCvT und einen nicht-hierarchischen Tracker namens MixViT. Für diese beiden Tracker untersuchen wir eine Reihe von Vortrainingsmethoden und offenbaren die unterschiedlichen Verhaltensweisen zwischen überwachtem und selbstüberwachtem Vortraining in unseren MixFormer-Trackern. Zudem erweitern wir das maskierte Vortraining auf unsere MixFormer-Tracker und entwickeln die konkurrenzfähige TrackMAE-Vortrainingsmethode. Schließlich behandeln wir mehrere Zielvorlagen während des Online-Trackings durch die Einführung eines asymmetrischen Aufmerksamkeits-Schemas im MAM, um die Berechnungskosten zu reduzieren, sowie durch die Vorschlag einer effektiven Score-Vorhersagemodule zur Auswahl hochwertiger Vorlagen. Unsere MixFormer-Tracker erreichen eine neue state-of-the-art-Leistung auf sieben Tracking-Benchmarks, darunter LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 und UAV123. Insbesondere erreicht unser MixViT-L eine AUC-Score von 73,3 % auf LaSOT, 86,1 % auf TrackingNet, ein EAO von 0,584 auf VOT2020 und ein AO von 75,7 % auf GOT-10k. Der Quellcode und die trainierten Modelle sind öffentlich verfügbar unter https://github.com/MCG-NJU/MixFormer.