HyperAIHyperAI
vor 13 Tagen

Globale Verfolgungstransformer

Xingyi Zhou, Tianwei Yin, Vladlen Koltun, Philipp Krähenbühl
Globale Verfolgungstransformer
Abstract

Wir präsentieren eine neuartige, auf Transformers basierende Architektur für die globale Mehrobjektverfolgung. Unser Netzwerk nimmt eine kurze Folge von Bildern als Eingabe und generiert globale Trajektorien für alle Objekte. Der zentrale Bestandteil ist ein globaler Tracking-Transformer, der Objekte aus allen Frames der Sequenz gleichzeitig verarbeitet. Der Transformer kodiert Objektmerkmale aus allen Frames und nutzt Trajektorienabfragen, um diese in Trajektorien zu gruppieren. Die Trajektorienabfragen basieren auf Objektmerkmalen aus einem einzigen Frame und erzeugen auf natürliche Weise eindeutige Trajektorien. Der globale Tracking-Transformer benötigt keine Zwischenstufen der paarweisen Gruppierung oder kombinatorischen Zuordnung und kann gemeinsam mit einem Objektdetektor trainiert werden. Er erreicht eine konkurrenzfähige Leistung auf dem etablierten MOT17-Benchmark mit 75,3 MOTA und 59,1 HOTA. Vor allem jedoch integriert sich unser Framework nahtlos in state-of-the-art-Detektoren mit großer Vokabellänge, um beliebige Objekte zu verfolgen. Experimente auf dem anspruchsvollen TAO-Datensatz zeigen, dass unser Ansatz konsistent die auf paarweiser Zuordnung basierenden Baselines übertrifft und veröffentlichte Arbeiten um einen signifikanten Wert von 7,7 Tracking mAP schlägt. Der Quellcode ist unter https://github.com/xingyizhou/GTR verfügbar.