SwinTrack: Ein einfacher und starker Baseline für Transformer-Tracking

Kürzlich wurde der Transformer in der Objektverfolgung weitgehend untersucht und zeigte state-of-the-art (SOTA)-Leistung. Allerdings konzentrieren sich die bestehenden Ansätze hauptsächlich auf die Fusion und Verbesserung von Merkmalen, die von convolutional neural networks (CNNs) generiert werden. Das Potenzial des Transformers für die Repräsentationslernung bleibt bisher untergenutzt. In diesem Artikel zielen wir darauf ab, das volle Potenzial des Transformers weiter zu entfalten, indem wir einen einfachen, aber effizienten, vollständig auf Aufmerksamkeit basierenden Verfolger namens SwinTrack innerhalb des klassischen Siamese-Frameworks vorschlagen. Insbesondere nutzt sowohl die Repräsentationslernung als auch die Merkmalsfusion in SwinTrack die Transformer-Architektur, was eine verbesserte Merkmalsinteraktion für die Verfolgung im Vergleich zu reinen CNN- oder hybriden CNN-Transformer-Strukturen ermöglicht. Darüber hinaus präsentieren wir ein neuartiges Bewegungstoken, das historische Zieltrajektorien einbettet, um die Robustheit durch Bereitstellung zeitlicher Kontextinformationen zu erhöhen. Unser Bewegungstoken ist leichtgewichtig und verursacht nur vernachlässigbaren Rechenaufwand, bringt jedoch deutliche Leistungssteigerungen. In umfassenden Experimenten übertrifft SwinTrack bestehende Ansätze auf mehreren Benchmarks. Insbesondere erreicht SwinTrack auf dem anspruchsvollen LaSOT-Benchmark einen neuen Rekord mit einer SUC-Score von 0,713. Zudem erzielt es SOTA-Ergebnisse auf weiteren Benchmarks. Wir erwarten, dass SwinTrack als solide Basis für Transformer-basierte Verfolgung dienen und zukünftige Forschung fördern wird. Unsere Codes und Ergebnisse sind unter https://github.com/LitingLin/SwinTrack veröffentlicht.