RetinaTrack: Online Single Stage Joint Detection and Tracking

Traditionell werden die mehrfache Objektverfolgung (multi-object tracking) und die Objektdetektion mit separaten Systemen durchgeführt, wobei die meisten vorherigen Arbeiten sich ausschließlich auf eine dieser Aufgaben konzentrieren. Verfolgungssysteme profitieren deutlich von präzisen Detektionen, und in der Literatur gibt es zahlreiche Hinweise darauf, dass Detektoren ebenfalls von der Verfolgung profitieren können – beispielsweise durch die Glättung von Vorhersagen über die Zeit. In diesem Paper konzentrieren wir uns auf den Tracking-by-Detection-Ansatz im Kontext autonomer Fahrzeuge, bei dem beide Aufgaben mission-kritisch sind. Wir stellen ein konzeptionell einfaches und effizientes gemeinsames Modell für Detektion und Verfolgung vor, namens RetinaTrack, das die populäre Einphasen-Architektur RetinaNet so modifiziert, dass sie für die Trainingsmethode auf Instanz-Ebene (instance-level embedding) geeignet ist. Anhand von Evaluierungen auf dem Waymo Open Dataset zeigen wir, dass wir eine neuere State-of-the-Art-Verfolgungsmethode übertreffen, während wir erheblich weniger Rechenleistung benötigen. Wir sind überzeugt, dass unser einfacher, aber effektiver Ansatz als robuster Ausgangspunkt für zukünftige Forschung in diesem Bereich dienen kann.