HyperAIHyperAI
vor 2 Monaten

Wie man seinen tiefen Mehrfachobjekt-Tracker trainiert

Yihong Xu; Aljosa Osep; Yutong Ban; Radu Horaud; Laura Leal-Taixe; Xavier Alameda-Pineda
Wie man seinen tiefen Mehrfachobjekt-Tracker trainiert
Abstract

Der aktuelle Trend im visuellen Mehrzielverfolgungssystem (Mehr-Objekt-Tracking, MOT) geht dahin, die repräsentative Leistungsfähigkeit des tiefen Lernens zu nutzen, um die Erkennung und Verfolgung von Objekten gleichzeitig zu erlernen. Allerdings trainieren bestehende Methoden nur bestimmte Untermoduln mit Verlustfunktionen, die oft nicht mit etablierten Tracking-Evaluationsmaßen wie der Mehr-Objekt-Tracking-Akkuratesse (Multi-Object Tracking Accuracy, MOTA) und Präzision (Multi-Object Tracking Precision, MOTP) korrelieren. Da diese Maße nicht differenzierbar sind, bleibt die Auswahl geeigneter Verlustfunktionen für das end-to-end Training von Mehr-Objekt-Verfolgungsverfahren ein offenes Forschungsproblem. In diesem Artikel schließen wir diese Lücke, indem wir ein differenzierbares Proxy für MOTA und MOTP vorschlagen, das wir in einer für das end-to-end Training tiefer Mehr-Objekt-Tracker geeigneten Verlustfunktion kombinieren. Als wesentliches Element schlagen wir ein Modul namens Deep Hungarian Net (DHN) vor, das den ungarischen Zuordnungsalgorithmus approximiert. DHN ermöglicht es, die Korrespondenz zwischen Objektpfaden und Ground-Truth-Objekten zu schätzen, um differenzierbare Proxies für MOTA und MOTP zu berechnen, die dann zur direkten Optimierung tiefer Tracker verwendet werden. Wir zeigen experimentell, dass das vorgeschlagene differenzierbare Framework die Leistung bestehender Mehr-Objekt-Tracker verbessert und einen neuen Stand der Technik auf dem MOTChallenge-Benchmark etabliert. Unser Code ist öffentlich unter https://github.com/yihongXU/deepMOT verfügbar.