FairMOT: Zur Fairness von Detektion und Re-Identifikation in der mehrfachen Objektverfolgung

Die mehrfache Objektverfolgung (Multi-object Tracking, MOT) ist ein zentrales Problem im Bereich der Computer Vision mit einer Vielzahl von Anwendungen. Die Formulierung von MOT als Mehraufgaben-Lernen von Objektdetektion und Re-Identification (re-ID) in einem einzigen Netzwerk ist besonders attraktiv, da sie eine gemeinsame Optimierung beider Aufgaben ermöglicht und eine hohe Rechenleistung erzielt. Allerdings stellen wir fest, dass die beiden Aufgaben tendenziell miteinander konkurrieren, was sorgfältig berücksichtigt werden muss. Insbesondere betrachten frühere Arbeiten re-ID oft als sekundäre Aufgabe, deren Genauigkeit stark von der primären Detektionaufgabe beeinflusst wird. Dadurch neigt das Netzwerk dazu, sich übermäßig auf die primäre Detektionsaufgabe auszurichten, was der re-ID-Aufgabe gegenüber ungerecht ist. Um dieses Problem zu lösen, präsentieren wir einen einfachen, jedoch wirksamen Ansatz namens FairMOT, der auf der anchor-free Objektdetektionsarchitektur CenterNet basiert. Es handelt sich dabei nicht um eine naive Kombination von CenterNet und re-ID. Vielmehr stellen wir eine Reihe detaillierter Gestaltungselemente vor, die aufgrund umfassender empirischer Studien entscheidend für die Erzielung guter Verfolgungsergebnisse sind. Der resultierende Ansatz erreicht eine hohe Genauigkeit sowohl bei der Detektion als auch bei der Verfolgung. Auf mehreren öffentlichen Datensätzen übertrifft FairMOT die derzeit besten Methoden deutlich. Der Quellcode und vortrainierte Modelle sind unter https://github.com/ifzhang/FairMOT verfügbar.