Zu Echtzeit-Multi-Objekt-Verfolgung

Moderne Mehrzielverfolgungssysteme (MOT) folgen in der Regel dem Paradigma der \emph{Verfolgung durch Erkennung}. Dieses Paradigma umfasst 1) ein Detektionsmodell zur Lokalisierung von Zielen und 2) ein Erscheinungsmerkmals-Modell zur Datenassoziation. Die getrennte Ausführung dieser beiden Modelle kann zu Effizienzproblemen führen, da die Laufzeit einfach die Summe der beiden Schritte ist, ohne potenzielle Strukturen zwischen ihnen zu berücksichtigen. Bestehende Forschungsanstrengungen im Bereich der Echtzeit-MOT konzentrieren sich in der Regel auf den Assoziationsschritt, sodass sie letztlich Methoden für die Echtzeit-Assoziation sind, aber kein vollständiges Echtzeit-MOT-System. In diesem Artikel schlagen wir ein MOT-System vor, das die Zielerkennung und das Erscheinungsmerkmals-Modell in einem gemeinsamen Modell lernen lässt. Insbesondere integrieren wir das Erscheinungsmerkmals-Modell in einen Ein-Schritt-Detektor (single-shot detector), sodass das Modell gleichzeitig Erkennungen und die entsprechenden Merkmale ausgeben kann. Wir stellen außerdem eine einfache und schnelle Assoziationsmethode vor, die mit dem kombinierten Modell zusammenarbeitet. In beiden Komponenten wird der Rechenaufwand im Vergleich zu früheren MOT-Systemen erheblich reduziert, was zu einer sauberen und schnellen Grundlage für zukünftige Entwicklungen bei Echtzeit-MOT-Algorithmen führt. Nach unserem Wissen berichtet diese Arbeit über das erste (nahezu) Echtzeit-MOT-System, dessen Betriebsgeschwindigkeit je nach Eingabeauflösung zwischen 22 und 40 Bildern pro Sekunde (FPS) liegt. Gleichzeitig ist seine Verfolgungspräzision vergleichbar mit den besten aktuellen Trackern, die getrennte Detektion und Merkmalsextraktion (SDE) verwenden ($64,4\%$ MOTA \vs $66,1\%$ MOTA bei der MOT-16-Herausforderung). Der Quellcode und die Modelle sind unter \url{https://github.com/Zhongdao/Towards-Realtime-MOT} verfügbar.