Monokulare 3D-Objekterkennung für autonome Fahrzeuge

Das Ziel dieses Papers besteht darin, die 3D-Objektdetektion in einzelnen monokularen Bildern im Kontext autonomer Fahrsysteme zu realisieren. Unser Ansatz zielt zunächst darauf ab, eine Reihe von Kandidaten für klassenspezifische Objekte zu generieren, die anschließend über eine standardmäßige CNN-Pipeline laufen, um hochwertige Objektdetektionsergebnisse zu erzielen. Der Schwerpunkt dieses Beitrags liegt auf der Generierung dieser Objektkandidaten. Insbesondere stellen wir ein probabilistisches Modell vor, das Objektkandidaten im 3D-Raum unter Verwendung eines Vorwissens über die Bodenebene positioniert. Anschließend werden die einzelnen Kandidatenboxen auf die Bildebene projiziert und mittels mehrerer intuitiver Potentiale bewertet, darunter semantische Segmentierung, kontextuelle Informationen, Größen- und Lagepriors sowie typische Objektformen. Die Gewichte in unserem Modell werden mittels S-SVM trainiert. Experimente zeigen, dass unsere Methode zur Generierung von Objektkandidaten alle monokularen Baseline-Verfahren erheblich übertrifft und die beste Detektionsleistung auf dem anspruchsvollen KITTI-Benchmark unter den veröffentlichten monokularen Ansätzen erreicht.