Beobachtungsorientiertes SORT: Eine Neubewertung von SORT für robusteres Mehrobjektverfolgen

Methoden für die Mehrfachobjektverfolgung (Multi-Object Tracking, MOT), die auf dem Kalman-Filter (KF) basieren, gehen von einer linearen Bewegung der Objekte aus. Diese Annahme ist zwar für sehr kurze Okklusionsperioden akzeptabel, doch lineare Bewegungsschätzungen über längere Zeiträume können erheblich ungenau sein. Zudem wird im Falle fehlender Messungen traditionell auf die vorherige Zustandsschätzung vertraut, um den Zustand nach der Okklusion zu aktualisieren. Dies führt dazu, dass sich Fehler während der Okklusionsphase akkumulieren. Diese Fehler verursachen in der Praxis eine signifikante Varianz der Bewegungsrichtung. In dieser Arbeit zeigen wir, dass ein grundlegender Kalman-Filter dennoch eine state-of-the-art-Verfolgungsleistung erzielen kann, wenn geeignete Maßnahmen ergriffen werden, um die während der Okklusion angesammelte Rauschkomponente zu korrigieren. Anstatt sich ausschließlich auf die lineare Zustandsschätzung (d. h. eine schätzungsorientierte Herangehensweise) zu verlassen, nutzen wir Objektdetektionsergebnisse (d. h. Messungen durch den Objektdetektor), um während der Okklusionsphase eine virtuelle Trajektorie zu berechnen, um die Fehlerakkumulation der Filterparameter zu korrigieren. Dadurch können mehr Zeitstufen zur Korrektur der während der Okklusion entstandenen Fehler genutzt werden. Wir bezeichnen unsere Methode als Observation-Centric SORT (OC-SORT). Sie bleibt einfach, online und in Echtzeit, verbessert jedoch die Robustheit bei Okklusionen und nichtlinearer Bewegung. Bei Verwendung von Standard-Detektionen als Eingabe erreicht OC-SORT eine Geschwindigkeit von über 700 FPS auf einem einzigen CPU-Kern. Die Methode erzielt state-of-the-art-Ergebnisse auf mehreren Datensätzen, darunter MOT17, MOT20, KITTI, Kopfverfolgung sowie besonders auf DanceTrack, wo die Objektbewegungen stark nichtlinear sind. Der Quellcode und die Modelle sind unter \url{https://github.com/noahcao/OC_SORT} verfügbar.