Lift, Splat, Shoot: Die Kodierung von Bildern aus beliebigen Kamerariggen durch implizites Entprojizieren in den 3D-Raum

Das Ziel der Wahrnehmung für autonome Fahrzeuge besteht darin, semantische Darstellungen aus mehreren Sensoren zu extrahieren und diese Darstellungen in einen einzigen "Vogelperspektiv"-Koordinatenrahmen zu fusionieren, um sie für die Bewegungsplanung nutzbar zu machen. Wir schlagen eine neue End-to-End-Architektur vor, die direkt aus Bildern beliebiger Anzahl von Kameras eine "Vogelperspektiv"-Darstellung einer Szene extrahiert. Das zentrale Konzept unseres Ansatzes ist es, jedes Bild einzeln in ein Strahlkegelmerkmal (frustum of features) für jede Kamera zu "heben" (lift), bevor alle Strahlkegel in ein rasterisiertes "Vogelperspektiv"-Gitter "gequetscht" (splat) werden. Durch das Training auf dem gesamten Kameragestell liefern wir Beweise dafür, dass unser Modell nicht nur lernt, Bilder darzustellen, sondern auch, Vorhersagen aller Kameras in eine kohärente Darstellung der Szene zu fusionieren und dabei robust gegenüber Kalibrierungsfehlern zu sein.Bei standardmäßigen "Vogelperspektiv"-Aufgaben wie Objektsegmentierung und Kartensegmentierung übertrifft unser Modell alle Baseline-Modelle und frühere Arbeiten. Im Streben nach dem Ziel dichter Darstellungen für die Bewegungsplanung zeigen wir, dass die durch unser Modell abgeleiteten Darstellungen interpretierbare End-to-End-Bewegungsplanung ermöglichen, indem Template-Trajektorien in eine vom Netzwerk ausgegebene "Vogelperspektiv"-Kostenkarte "geschossen" (shoot) werden. Wir vergleichen unseren Ansatz mit Modellen, die orakelähnliche Tiefeninformationen von Lidar verwenden. Projektseite mit Code: https://nv-tlabs.github.io/lift-splat-shoot .