HyperAIHyperAI
vor 11 Tagen

TrackFormer: Multi-Object Tracking mit Transformers

Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer
TrackFormer: Multi-Object Tracking mit Transformers
Abstract

Die anspruchsvolle Aufgabe des Multi-Object-Tracking (MOT) erfordert die gleichzeitige Inferenz von Track-Initialisierung, Identität und raumzeitlichen Trajektorien. Wir formulieren diese Aufgabe als Set-Prediction-Problem zwischen aufeinanderfolgenden Bildern und stellen TrackFormer vor, einen end-to-end trainierbaren MOT-Ansatz, der auf einer Encoder-Decoder-Transformer-Architektur basiert. Unser Modell erreicht die Datenassoziation zwischen Bildern mittels Aufmerksamkeit, indem es eine Menge von Track-Vorhersagen über eine Videosequenz hinweg entwickelt. Der Transformer-Decoder initialisiert neue Tracks aus statischen Objekt-Queries und verfolgt bestehende Tracks raum- und zeitlich autoregressiv mittels eines konzeptionell neuen und identitätsbewahrenden Ansatzes für Track-Queries. Beide Query-Typen profitieren von Selbst- sowie Encoder-Decoder-Aufmerksamkeit auf globalen Frame-Level-Features, wodurch jegliche zusätzliche graphbasierte Optimierung oder Modellierung von Bewegung und/oder Erscheinung entfällt. TrackFormer führt eine neue Paradigma des Tracking-by-Attention ein, das trotz seiner einfachen Architektur state-of-the-art-Leistung sowohl auf der Aufgabe des Multi-Object-Tracking (MOT17 und MOT20) als auch der Segmentierung (MOTS20) erzielt. Der Quellcode ist unter https://github.com/timmeinhardt/trackformer verfügbar.

TrackFormer: Multi-Object Tracking mit Transformers | Neueste Forschungsarbeiten | HyperAI