MixFormer: End-to-End-Verfolgung mit iterativer gemischter Aufmerksamkeit

Die Verfolgung nutzt oft eine mehrstufige Pipeline mit Merkmalsextraktion, Zielinformationenintegration und Schätzungen von Begrenzungsrahmen. Um diese Pipeline zu vereinfachen und den Prozess der Merkmalsextraktion und der Zielinformationenintegration zu vereinen, präsentieren wir ein kompaktes Verfolgungsframework, das auf Transformer basiert und als MixFormer bezeichnet wird. Unser Kernkonzept ist die Nutzung der Flexibilität von Aufmerksamkeitsoperationen sowie die Entwicklung eines gemischten Aufmerksamkeitsmoduls (Mixed Attention Module, MAM) für die gleichzeitige Merkmalsextraktion und Integration von Zielinformationen. Dieses synchronisierte Modell ermöglicht es, zielbezogene diskriminierende Merkmale zu extrahieren und umfangreiche Kommunikation zwischen dem Ziel und dem Suchbereich herzustellen. Basierend auf dem MAM bauen wir unser MixFormer-Verfolgungsframework einfach durch das Stapeln mehrerer MAMs mit fortschreitender Patch-Embedding und das Platzieren eines Lokalisierungskopfes darauf auf. Darüber hinaus haben wir, um mehrere Zieldateien während des Online-Trackings zu verarbeiten, ein asymmetrisches Aufmerksamkeitsschema im MAM entwickelt, um die Rechenkosten zu reduzieren, und schlagen wir ein effektives Score-Predictionsmodul vor, um hochwertige Templates auszuwählen. Unser MixFormer setzt einen neuen Stand der Technik in fünf Verfolgungsbenchmarks: LaSOT, TrackingNet, VOT2020, GOT-10k und UAV123. Insbesondere erreicht unser MixFormer-L einen NP-Wert von 79,9 % bei LaSOT, 88,9 % bei TrackingNet und einen EAO-Wert von 0,555 bei VOT2020. Wir führen auch detaillierte Reduktionstudien durch, um die Effektivität der gleichzeitigen Merkmalsextraktion und Informationsintegration zu demonstrieren. Der Quellcode und trainierte Modelle sind öffentlich verfügbar unter https://github.com/MCG-NJU/MixFormer.