Gemeinsame Objektdetektion und Multi-Objektverfolgung mit Graph Neural Networks

Objektdetektion und Datenassoziation sind entscheidende Komponenten in Multi-Object-Tracking-(MOT)-Systemen. Obwohl diese beiden Komponenten voneinander abhängen, werden in früheren Arbeiten Detektions- und Datenassoziationsmodule oft getrennt entworfen und mit unterschiedlichen Zielfunktionen trainiert. Dadurch ist eine Rückpropagation von Gradienten und die Optimierung des gesamten MOT-Systems nicht möglich, was zu suboptimalen Leistungen führt. Um dieses Problem anzugehen, optimieren neuere Ansätze Detektion und Datenassoziation simultan innerhalb eines gemeinsamen MOT-Rahmens, was eine verbesserte Leistung in beiden Modulen gezeigt hat. In dieser Arbeit stellen wir eine neue Instanz eines gemeinsamen MOT-Ansatzes basierend auf Graph Neural Networks (GNNs) vor. Der zentrale Gedanke besteht darin, dass GNNs Beziehungen zwischen objekten variabler Größe sowohl im räumlichen als auch im zeitlichen Bereich modellieren können, was entscheidend für die Lernung diskriminativer Merkmale für Detektion und Datenassoziation ist. Anhand umfangreicher Experimente auf den MOT15/16/17/20-Datensätzen zeigen wir die Wirksamkeit unseres GNN-basierten gemeinsamen MOT-Ansatzes und erzielen state-of-the-art-Ergebnisse sowohl für die Detektions- als auch für die MOT-Aufgaben. Unser Code ist verfügbar unter: https://github.com/yongxinw/GSDT