Kombinierte Bild- und Weltraumverfolgung in Verkehrsszenen

Die Verfolgung von Objekten in städtischen Straßenszenen spielt eine zentrale Rolle in autonomen Systemen wie selbstfahrenden Autos. Die meisten derzeitigen bildbasierten Verfolgungsmethoden führen die Verfolgung im Bildbereich durch. Andere Ansätze, wie zum Beispiel solche auf LiDAR und Radar basierend, verfolgen rein im 3D-Bereich. Obwohl einige bildbasierte Verfolgungsmethoden Teile ihrer Pipeline mit 3D-Informationen ergänzen und einige 3D-basierte Methoden bildbasierte Informationen in Komponenten ihres Ansatzes nutzen, schlagen wir vor, sowohl bild- als auch weltbezogene Information über den gesamten Prozess hinweg gemeinsam zu verwenden. Wir präsentieren unsere Verfolgungsipeline als 3D-Erweiterung der bildbasierten Verfolgung. Von der Verbesserung der Erkennungen durch 3D-Messungen bis hin zu den gemeldeten Positionen jedes verfolgten Objekts nutzen wir weltbezogene 3D-Informationen in jeder Verarbeitungsstufe. Dies erreichen wir durch unseren neuartigen gekoppelten 2D-3D-Kalman-Filter, kombiniert mit einem konzeptionell klaren und erweiterbaren Hypothesen-und-Auswahl-Rahmenwerk (hypothesize-and-select framework). Unser Ansatz entspricht dem aktuellen Stand der Technik im offiziellen KITTI-Benchmark, der die Bewertung ausschließlich im 2D-Bildbereich durchführt. Weitere Experimente zeigen erhebliche Verbesserungen der 3D-Lokalisierungspräzision durch die Einführung unseres gekoppelten 2D-3D-Verfolgungsverfahrens.