TransMOT: Spatial-Temporal Graph Transformer für die mehrfache Objektverfolgung

Die Verfolgung mehrerer Objekte in Videos beruht auf der Modellierung der räumlich-zeitlichen Wechselwirkungen zwischen den Objekten. In diesem Artikel stellen wir eine Lösung namens TransMOT vor, die leistungsstarke Graph-Transformer nutzt, um die räumlichen und zeitlichen Interaktionen zwischen den Objekten effizient zu modellieren. TransMOT modelliert die Wechselwirkungen einer großen Anzahl von Objekten effektiv, indem sie die Verfolgungstrajektorien als Menge spärlich gewichteter Graphen anordnet und eine räumliche Graph-Transformer-Encoding-Schicht, eine zeitliche Transformer-Encoding-Schicht sowie eine räumliche Graph-Transformer-Decoder-Schicht auf Basis dieser Graphen konstruiert. TransMOT ist nicht nur rechenzeit-effizienter als der herkömmliche Transformer, sondern erreicht zudem eine höhere Verfolgungsgenauigkeit. Um die Verfolgungsgeschwindigkeit und -genauigkeit weiter zu verbessern, schlagen wir einen kaskadenartigen Assoziationsrahmen vor, der niedrig bewertete Detektionen und langfristige Verdeckungen effizient behandelt, die in TransMOT ansonsten hohe Rechenressourcen erfordern würden. Die vorgeschlagene Methode wird auf mehreren Benchmark-Datensätzen wie MOT15, MOT16, MOT17 und MOT20 evaluiert und erzielt auf allen Datensätzen einen state-of-the-art-Ergebnis.