HyperAIHyperAI
vor 2 Monaten

MOTR: End-to-End Mehrfachobjektverfolgung mit Transformer

Zeng, Fangao ; Dong, Bin ; Zhang, Yuang ; Wang, Tiancai ; Zhang, Xiangyu ; Wei, Yichen
MOTR: End-to-End Mehrfachobjektverfolgung mit Transformer
Abstract

Die zeitliche Modellierung von Objekten stellt eine wichtige Herausforderung bei der Verfolgung mehrerer Objekte (MOT) dar. Bestehende Methoden verfolgen Objekte, indem sie Detektionen anhand von bewegungs- und äußerungsbasierter Ähnlichkeitsheuristik assoziieren. Die nachbearbeitende Natur der Assoziation verhindert jedoch die durchgängige Ausnutzung zeitlicher Variationen in Videosequenzen. In dieser Arbeit schlagen wir MOTR vor, das DETR erweitert und Track-Query einführt, um die verfolgten Instanzen im gesamten Video zu modellieren. Die Track-Query wird von Bild zu Bild übertragen und aktualisiert, um eine iterative Vorhersage über die Zeit durchzuführen. Wir schlagen ferner eine tracklet-basierte Label-Zuordnung vor, um Track-Queries und Neugeborenenobjekt-Queries zu trainieren. Um die Modellierung zeitlicher Beziehungen zu verbessern, stellen wir ein Netzwerk zur zeitlichen Aggregation und einen kollektiven Durchschnittsverlust vor. Experimentelle Ergebnisse auf DanceTrack zeigen, dass MOTR den aktuellen Stand der Technik, ByteTrack, um 6,5 % auf der HOTA-Metrik übertrifft. Auf MOT17 übertreffen die Leistungen von MOTR in Bezug auf die Assoziation unsere gleichzeitigen Arbeiten, nämlich TrackFormer und TransTrack. MOTR kann als stärkere Baseline für zukünftige Forschungen zur zeitlichen Modellierung und Transformer-basierten Tracker dienen. Der Quellcode ist unter https://github.com/megvii-research/MOTR verfügbar.

MOTR: End-to-End Mehrfachobjektverfolgung mit Transformer | Neueste Forschungsarbeiten | HyperAI