Mehrfachobjektverfolgung basierend auf Erscheinungsbild durch hierarchisches Clustern von Tracklets

Aktuelle Ansätze im Multiple Object Tracking (MOT) basieren auf der räumlich-zeitlichen Kohärenz zwischen Detektionen kombiniert mit der Objektaussehen, um Objekte über aufeinanderfolgende Frames zu verbinden. In dieser Arbeit untersuchen wir einen MOT-Ansatz, bei dem das Objektaussehen die primäre Quelle für die Assoziation zwischen Objekten in einem Video darstellt, während räumliche und zeitliche Prioritäten als Gewichtungsfaktoren verwendet werden. Wir generieren zunächst sogenannte Tracklets, indem wir die Idee nutzen, dass Objektinstanzen, die zeitlich nahe beieinander liegen, auch in ihrem Aussehen ähnlich sein sollten. Die endgültigen Objektverfolgungstrajektorien werden schließlich durch hierarchische Fusion der Tracklets aufgebaut. Umfassende Experimente zeigen die Wirksamkeit unseres Verfahrens an drei unterschiedlichen MOT-Benchmarks – MOT17, MOT20 und DanceTrack – wobei es in MOT17 und MOT20 konkurrenzfähig ist und in DanceTrack state-of-the-art Ergebnisse erzielt.