SMILEtrack: SiMIlarity LEarning für occlusion-bewusste mehrfache Objektverfolgung

Trotz neuer Fortschritte im Bereich des Mehrfachobjektverfolgung (Multiple Object Tracking, MOT) bleiben Herausforderungen wie Verdeckungen, ähnliche Objekte und komplexe Szenen weiterhin offene Probleme. Gleichzeitig fehlt bislang eine systematische Untersuchung des Kosten-Leistungs-Trade-offs im Rahmen des verbreiteten Tracking-by-Detection-Paradigmas. In dieser Arbeit stellen wir SMILEtrack vor – einen innovativen Objektverfolger, der diese Herausforderungen effektiv angeht, indem er einen effizienten Objektdetektor mit einem auf einem Siamese-Netzwerk basierenden Similarity Learning Module (SLM) integriert. Die technischen Beiträge von SMILETrack sind zweifach. Erstens schlagen wir ein SLM vor, das die Erscheinungsimilarität zwischen zwei Objekten berechnet und somit die Einschränkungen von Merkmalsbeschreibern in Separated Detection and Embedding (SDE)-Modellen überwindet. Das SLM integriert einen Patch Self-Attention (PSA)-Block, der sich von der Vision Transformer-Architektur inspirieren lässt und zu zuverlässigen Merkmalen für eine präzise Similaritätsübereinstimmung führt. Zweitens entwickeln wir ein Similarity Matching Cascade (SMC)-Modul mit einer neuartigen GATE-Funktion, das eine robuste Objektübereinstimmung über aufeinanderfolgende Videobilder ermöglicht und die MOT-Leistung weiter verbessert. Zusammen ermöglichen diese Innovationen, dass SMILEtrack ein verbessertes Verhältnis zwischen Kosten (z. B. Laufzeit) und Leistung (z. B. Verfolgungsgenauigkeit) gegenüber mehreren etablierten State-of-the-Art-Benchmarks erzielt, darunter die weit verbreitete BYTETrack-Methode. SMILEtrack erreicht auf den MOT17- und MOT20-Datensätzen eine Verbesserung von 0,4 bis 0,8 MOTA und 2,1 bis 2,2 HOTA-Punkten gegenüber BYTETrack. Der Quellcode ist unter https://github.com/pingyang1117/SMILEtrack_Official verfügbar.