HyperAIHyperAI

Command Palette

Search for a command to run...

MixFormer: End-to-End-Verfolgung mit iterativem gemischttem Attention

Yutao Cui Cheng Jiang Gangshan Wu Limin Wang

Zusammenfassung

Visual Object Tracking verwendet häufig eine mehrstufige Pipeline, die aus Merkmalsextraktion, Integration von Zielinformationen und Schätzung von Bounding Boxes besteht. Um diese Pipeline zu vereinfachen und den Prozess der Merkmalsextraktion sowie der Integration von Zielinformationen zu vereinheitlichen, stellen wir in diesem Artikel einen kompakten Tracking-Framework namens MixFormer vor, der auf Transformers basiert. Unser zentrales Design nutzt die Flexibilität von Aufmerksamkeitsoperationen und führt ein Mixed Attention Module (MAM) ein, das gleichzeitig Merkmalsextraktion und Integration von Zielinformationen ermöglicht. Dieses synchrone Modellierungsverfahren erlaubt die Extraktion zielgerichteter, differenzierender Merkmale sowie eine umfassende Kommunikation zwischen Ziel- und Suchbereich. Auf Basis des MAM bauen wir unsere MixFormer-Tracker einfach durch Stapeln mehrerer MAMs und Hinzufügen eines Lokalisierungs-Kopfes auf. Konkret instanziieren wir zwei Arten von MixFormer-Trackern: einen hierarchischen Tracker namens MixCvT und einen nicht-hierarchischen Tracker namens MixViT. Für diese beiden Tracker untersuchen wir eine Reihe von Vortrainingsmethoden und offenbaren die unterschiedlichen Verhaltensweisen zwischen überwachtem und selbstüberwachtem Vortraining in unseren MixFormer-Trackern. Zudem erweitern wir das maskierte Vortraining auf unsere MixFormer-Tracker und entwickeln die konkurrenzfähige TrackMAE-Vortrainingsmethode. Schließlich behandeln wir mehrere Zielvorlagen während des Online-Trackings durch die Einführung eines asymmetrischen Aufmerksamkeits-Schemas im MAM, um die Berechnungskosten zu reduzieren, sowie durch die Vorschlag einer effektiven Score-Vorhersagemodule zur Auswahl hochwertiger Vorlagen. Unsere MixFormer-Tracker erreichen eine neue state-of-the-art-Leistung auf sieben Tracking-Benchmarks, darunter LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 und UAV123. Insbesondere erreicht unser MixViT-L eine AUC-Score von 73,3 % auf LaSOT, 86,1 % auf TrackingNet, ein EAO von 0,584 auf VOT2020 und ein AO von 75,7 % auf GOT-10k. Der Quellcode und die trainierten Modelle sind öffentlich verfügbar unter https://github.com/MCG-NJU/MixFormer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp