vor 2 Monaten

Lernen von räumlich-zeitlichen Transformatoren für visuelle Verfolgung

Bin Yan; Houwen Peng; Jianlong Fu; Dong Wang; Huchuan Lu

Abstract

In dieser Arbeit stellen wir eine neue Tracking-Architektur vor, bei der ein Encoder-Decoder-Transformer das zentrale Element darstellt. Der Encoder modelliert die globalen räumlich-zeitlichen Abhängigkeiten zwischen Zielobjekten und Suchbereichen, während der Decoder eine Query-Einbettung lernt, um die räumlichen Positionen der Zielobjekte zuvorzusagen. Unsere Methode behandelt Objektverfolgung als direktes Problem der Bounding-Box-Vorhersage, ohne dabei auf Vorschläge oder vorgegebene Ankerpunkte zurückzugreifen. Mit dem Encoder-Decoder-Transformer wird die Vorhersage von Objekten durch ein einfaches vollkonvolutionsbasiertes Netzwerk (Fully-Convolutional Network) durchgeführt, das die Ecken der Objekte direkt schätzt. Die gesamte Methode ist end-to-end und benötigt keine nachgeschalteten Verarbeitungsschritte wie Cosinus-Fenster oder Bounding-Box-Glättung, was bestehende Tracking-Pipelines erheblich vereinfacht. Der vorgeschlagene Tracker erreicht den Stand der Technik in fünf anspruchsvollen Benchmarks für kurzfristige und langfristige Verfolgung und läuft dabei in Echtzeitgeschwindigkeit, wobei er sechs Mal schneller als Siam R-CNN ist. Der Quellcode und die Modelle sind Open Source unter https://github.com/researchmm/Stark.