Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers

Die reiche räumlich-zeitliche Information ist entscheidend dafür, die komplexen Veränderungen des Ziels in der visuellen Verfolgung adäquat zu erfassen. Die meisten führenden Tracking-Algorithmen stützen sich jedoch auf zahlreiche handkurierte Komponenten zur Aggregation räumlich-zeitlicher Informationen. Dadurch bleibt die räumlich-zeitliche Information weitgehend ungenutzt ausgeschöpft. Um dieses Problem zu mildern, schlagen wir einen adaptiven Tracker mit räumlich-zeitlichen Transformers vor (AQATrack), der einfache autoregressive Abfragen nutzt, um räumlich-zeitliche Informationen effektiv zu lernen, ohne auf viele handgestaltete Komponenten angewiesen zu sein. Zunächst führen wir eine Menge lernbarer, autoregressiver Abfragen ein, um Veränderungen der momentanen Zielerscheinung in einer gleitenden Fenster-Weise zu erfassen. Anschließend entwerfen wir eine neuartige Aufmerksamkeitsmechanik zur Interaktion bestehender Abfragen, um eine neue Abfrage im aktuellen Frame zu generieren. Schließlich wird auf Basis der ursprünglichen Zielvorlage und der gelernten autoregressiven Abfragen ein räumlich-zeitliches Informationsfusionmodul (STM) entworfen, das die Aggregation räumlich-zeitlicher Informationen ermöglicht, um das Zielobjekt präzise zu lokalisieren. Dank des STM können wir effektiv die statische Erscheinung und die momentanen Veränderungen kombinieren, um eine robuste Verfolgung zu gewährleisten. Umfangreiche Experimente zeigen, dass unsere Methode die Leistung des Trackers signifikant auf sechs etablierten Benchmark-Datenbanken verbessert: LaSOT, LaSOText, TrackingNet, GOT-10k, TNL2K und UAV123.