Monokulares quasidichtes 3D-Objektverfolgen

Ein zuverlässiger und genauer 3D-Tracking-Framework ist für die Vorhersage zukünftiger Positionen umgebender Objekte sowie die Planung der Aktionen des Beobachters in zahlreichen Anwendungen wie dem autonomen Fahren von entscheidender Bedeutung. Wir präsentieren ein Framework, das bewegte Objekte über die Zeit effektiv verknüpft und deren vollständige 3D-Bounding-Box-Informationen aus einer Folge von 2D-Bildern ermittelt, die von einer sich bewegenden Plattform aufgenommen wurden. Die Objektverknüpfung nutzt quasi-dichte Ähnlichkeitslernverfahren, um Objekte unter verschiedenen Pose- und Blickwinkeln allein anhand von Erscheinungseigenschaften zu identifizieren. Nach der initialen 2D-Verknüpfung setzen wir zudem Heuristiken zur Tiefenordnung von 3D-Bounding-Boxen ein, um robuste Instanzverknüpfungen zu ermöglichen, sowie bewegungsbasierende 3D-Trajektorievorhersagen zur Re-Identifikation verdeckter Fahrzeuge. Abschließend aggregiert ein auf LSTM basierender Modul zur Objektgeschwindigkeitslernung langfristige Trajektorieninformationen, um eine präzisere Bewegungsausweitung zu ermöglichen. Experimente an unseren vorgeschlagenen Simulationsdaten sowie an realen Benchmark-Datenbanken – einschließlich KITTI, nuScenes und Waymo – zeigen, dass unser Tracking-Framework eine robuste Objektverknüpfung und -verfolgung in urbanen Fahrszenarien ermöglicht. Auf dem Waymo Open Benchmark etablieren wir erstmals eine Kamera-allein-Benchmark-Lösung im Bereich 3D-Tracking und 3D-Detektion. Unser quasi-dichter 3D-Tracking-Pipeline erzielt beeindruckende Verbesserungen im nuScenes 3D-Tracking-Benchmark, wobei die Genauigkeit nahezu fünfmal so hoch ist wie die des besten bisher veröffentlichten rein visuellen Ansatzes. Unsere Codebase, Daten und trainierten Modelle sind unter https://github.com/SysCV/qd-3dt verfügbar.