Vote3Deep: Schnelle Objekterkennung in 3D-Punktwolken mittels effizienter konvolutionaler Neuronalen Netze

Dieses Papier schlägt einen rechnerisch effizienten Ansatz zur detektion von Objekten in 3D-Punktwolken unter Verwendung von Faltungsneuronalen Netzen (CNNs) vor. Insbesondere wird dies durch die Nutzung eines featurespezifischen Abstimmungsschemas erreicht, um neuartige Faltungsschichten zu implementieren, die die im Eingangssignal auftretende Sparsität explizit nutzen. Hierbei untersuchen wir den Kompromiss zwischen Genauigkeit und Geschwindigkeit für verschiedene Architekturen und schlagen zudem die Verwendung einer L1-Strafe auf die Filteraktivierungen vor, um Sparsität in den Zwischendarstellungen weiterhin zu fördern. Nach bestem Wissen ist dies die erste Arbeit, die sparse Faltungsschichten und L1-Regularisierung für eine effiziente Großskalenaufbereitung von 3D-Daten vorschlägt. Wir demonstrieren die Effektivität unseres Ansatzes am KITTI-Objekterkennungsbenchmark und zeigen, dass Vote3Deep-Modelle mit nur drei Schichten sowohl bei laserbasierten als auch bei laser-visuellen Ansätzen den bisherigen Stand der Technik um bis zu 40 % übertreffen, während sie gleichzeitig in Bezug auf die Verarbeitungszeit hoch wettbewerbsfähig bleiben.