GS3D: Ein effizientes 3D-Objekterkennungsframework für autonome Fahrzeuge

Wir präsentieren ein effizientes Framework zur 3D-Objekterkennung auf Basis eines einzelnen RGB-Bildes im Szenario des autonomen Fahrens. Unsere Bemühungen konzentrieren sich darauf, die zugrunde liegende 3D-Information in einem 2D-Bild zu extrahieren und die genaue 3D-Umrandungsbox des Objekts ohne Punktewolke oder Stereo-Daten zu bestimmen. Unter Verwendung eines etablierten 2D-Objekterkenners schlagen wir einen künstlerischen Ansatz vor, um für jede vorhergesagte 2D-Box effizient eine grobe Quaderdarstellung zu erhalten. Der grobe Quader hat eine ausreichende Genauigkeit, um uns bei der Bestimmung der 3D-Box des Objekts durch Verfeinerung zu leiten. Im Gegensatz zu früheren Stand-of-the-Art-Methoden, die nur die aus der 2D-Umrandungsbox extrahierten Merkmale für die Boxverfeinerung verwenden, untersuchen wir die 3D-Strukturinformation des Objekts durch den Einsatz visueller Merkmale sichtbarer Oberflächen. Die neuen Merkmale von Oberflächen werden verwendet, um das Problem der Darstellungsvieldeutigkeit zu beseitigen, das allein durch die Verwendung einer 2D-Umrandungsbox entsteht. Des Weiteren untersuchen wir verschiedene Methoden zur Verfeinerung der 3D-Box und stellen fest, dass eine Klassifizierungsformulierung mit qualitätsbewusstem Verlust (quality aware loss) viel bessere Leistungen erzielt als Regression. Auf dem KITTI-Benchmark evaluiert, übertrifft unser Ansatz aktuelle Stand-of-the-Art-Methoden für die 3D-Objekterkennung basierend auf einem einzelnen RGB-Bild.