LMOT: Effiziente lightweight Detektion und Verfolgung in Menschenmengen
Multi-Object-Tracking ist eine zentrale Komponente in verschiedenen Anwendungen der Robotik und Computer Vision. Bisherige Ansätze zum Multi-Object-Tracking setzen jedoch eine Abwägung zwischen Rechenzeit und Tracking-Genauigkeit, was die Implementierung solcher Pipelines in Echtzeitanwendungen erschwert. In dieser Arbeit wird ein neuartiges Echtzeitmodell vorgestellt, das LMOT (Light-weight Multi-Object Tracker), welches die gemeinsame Durchführung von Fußgängerdetektion und -verfolgung ermöglicht. LMOT verwendet einen vereinfachten DLA-34-Encoder-Netzwerk, um detektionsrelevante Merkmale für das aktuelle Bild effizient zu extrahieren. Darüber hinaus generieren wir effiziente Verfolgungsmerkmale mithilfe eines linearen Transformers für den vorherigen Bildframe und dessen zugehörige Detektions-Heatmap. Anschließend fusioniert LMOT sowohl die Detektions- als auch die Verfolgungsmerkmalskarten in einer mehrschichtigen Architektur und führt eine zweistufige Online-Datenassoziation durch, die auf dem Kalman-Filter basiert, um Tracklets zu erzeugen. Wir haben unser Modell anhand der anspruchsvollen realen Datensätze MOT16/17/20 evaluiert und zeigen, dass LMOT die derzeit besten Tracker hinsichtlich Laufzeit deutlich übertrifft, während gleichzeitig eine hohe Robustheit erhalten bleibt. LMOT ist im Durchschnitt etwa zehnmal schneller als die aktuellen State-of-the-Art-Tracker, wobei die Leistungsgenauigkeit lediglich um durchschnittlich 3,8 % zurückgeht – was ein deutlich rechenleichteres Modell ergibt.