ImVoxelNet: Bild-zu-Voxel-Projektion für monokulare und mehrere Ansichten allgemeinzweckorientierte 3D-Objekterkennung

In diesem Paper führen wir die Aufgabe der multi-view-basierten 3D-Objektdetektion auf RGB-Bildern als ein end-to-end-Optimierungsproblem ein. Um dieses Problem zu lösen, stellen wir ImVoxelNet vor, eine neuartige vollständig konvolutionale Methode zur 3D-Objektdetektion, die auf monokularen oder multi-view RGB-Bildern basiert. Die Anzahl der monokularen Bilder pro multi-view-Eingabe kann während des Trainings und der Inferenz variieren; tatsächlich kann diese Zahl für jede multi-view-Eingabe unterschiedlich sein. ImVoxelNet bewältigt erfolgreich sowohl Innen- als auch Außenbereichsszenen, was es allgemein verwendbar macht. Insbesondere erzielt es state-of-the-art Ergebnisse bei der Fahrzeugdetektion auf den KITTI-(monokular) und nuScenes-(multi-view)-Benchmarks unter allen Methoden, die RGB-Bilder als Eingabe akzeptieren. Zudem übertrifft es bestehende RGB-basierte Ansätze zur 3D-Objektdetektion auf dem SUN RGB-D-Datensatz. Auf ScanNet etabliert ImVoxelNet eine neue Benchmark für die multi-view 3D-Objektdetektion. Der Quellcode und die trainierten Modelle sind unter https://github.com/saic-vul/imvoxelnet verfügbar.