Transformer Tracking

Die Korrelation spielt eine entscheidende Rolle im Bereich der Objektverfolgung, insbesondere bei den in letzter Zeit populären Siamese-basierten Verfolgungsalgorithmen. Die Korrelationsoperation stellt eine einfache Methode zur Fusions von Merkmalen dar, um die Ähnlichkeit zwischen dem Vorlagebild (Template) und dem Suchbereich zu erfassen. Allerdings ist die Korrelationsoperation selbst ein lokaler, linearer Übereinstimmungsprozess, der semantische Informationen verliert und leicht in lokale Optima gerät – ein Umstand, der möglicherweise die Hauptbeschränkung bei der Entwicklung hochgenauer Verfolgungsalgorithmen darstellt. Gibt es eine bessere Methode zur Merkmalsfusion als die Korrelation? Um dieses Problem anzugehen, lassen wir uns von der Transformer-Architektur inspirieren und präsentieren ein neuartiges, auf Aufmerksamkeit basierendes Merkmalschmelznetzwerk, das die Merkmale aus Template und Suchbereich ausschließlich mittels Aufmerksamkeitsmechanismen effektiv kombiniert. Konkret umfasst der vorgeschlagene Ansatz ein ego-contextualer Erweiterungsmodul auf Basis von Selbstaufmerksamkeit und ein cross-feature Erweiterungsmodul basierend auf Kreuzaufmerksamkeit. Schließlich stellen wir eine Transformer-basierte Verfolgungsmethode (TransT genannt) vor, die auf einem Siamese-ähnlichen Merkmalsextraktions-Backbone, dem entworfenen auf Aufmerksamkeit basierenden Fusionsmechanismus sowie einem Klassifikations- und Regressionskopf aufbaut. Experimente zeigen, dass unser TransT sehr vielversprechende Ergebnisse auf sechs anspruchsvollen Datensätzen erzielt, insbesondere auf den großen Benchmarks LaSOT, TrackingNet und GOT-10k. Unser Verfolger läuft auf einer GPU mit etwa 50 fps. Der Quellcode und die Modelle sind unter https://github.com/chenxin-dlut/TransT verfügbar.