Projizieren Sie Ihre Aufmerksamkeit: Schätzung der Straßenraumstruktur aus einer einzigen Ansicht mittels Cross-View-Transformation

Die Rekonstruktion hochgenauer (HD) Karten ist entscheidend für autonome Fahrzeuge. Lidar-basierte Verfahren sind aufgrund der kostspieligen Sensoren und der rechenintensiven Verarbeitung eingeschränkt. Kamerabasierte Ansätze erfordern in der Regel eine getrennte Durchführung der Straßensegmentierung und der Blickwinkeltransformation, was häufig zu Verzerrungen und fehlenden Inhalten führt. Um die Grenzen der Technologie zu erweitern, präsentieren wir einen neuartigen Ansatz, der die Rekonstruktion einer lokalen Karte aus Straßenlayout und Fahrzeugbesetzungsregionen im Vogelperspektivbild ermöglicht, ausgehend lediglich von einem Frontansichtsbild aus einer einzigen Monokamera. Insbesondere stellen wir ein cross-view-Transformationmodul vor, das die Zyklenkonsistenz zwischen verschiedenen Blickwinkeln berücksichtigt und deren Korrelation optimal nutzt, um die Blickwinkeltransformation und die Szenenverstehbarkeit zu stärken. Berücksichtigend die räumliche Beziehung zwischen Fahrzeugen und Straßen entwickeln wir zudem einen kontextbewussten Diskriminator, um die Ergebnisse weiter zu verfeinern. Experimente auf öffentlichen Benchmark-Datenbanken zeigen, dass unsere Methode die derzeit beste Leistung bei der Schätzung des Straßenlayouts und der Fahrzeugbesetzung erzielt. Insbesondere bei der letzteren Aufgabe übertrifft unser Modell alle Konkurrenten deutlich. Zudem läuft unser Modell mit 35 FPS auf einer einzigen GPU, was eine effiziente und praktikable Anwendung für die Echtzeit-Rekonstruktion von PanoramahD-Karten ermöglicht.