vor 2 Monaten

Effiziente 3D-Architekturen mit dünn besetzter Punktel-voxel-Konvolution suchen

Haotian Tang; Zhijian Liu; Shengyu Zhao; Yujun Lin; Ji Lin; Hanrui Wang; Song Han

Abstract

Selbstfahrende Autos müssen 3D-Szenen effizient und präzise verstehen, um sicher zu fahren. Angesichts der begrenzten Hardware-Ressourcen sind bestehende 3D-Wahrnehmungsmodelle aufgrund der niedrigen Auflösung der Voxelisierung und des aggressiven Downsamplings nicht in der Lage, kleine Instanzen (z.B. Fußgänger, Radfahrer) gut zu erkennen. Um dieses Problem anzugehen, schlagen wir die Sparse Point-Voxel Convolution (SPVConv) vor, ein leichtgewichtiges 3D-Modul, das die Standard-Sparse Convolution mit einem hochauflösenden punktbasierten Zweig ausstattet. Mit vernachlässigbarem Mehraufwand ist dieser punktbasierte Zweig in der Lage, auch bei großen Outdoor-Szenen die feinen Details zu bewahren. Um den Spektrum effizienter 3D-Modelle zu erforschen, definieren wir zunächst einen flexiblen Architekturdesignraum basierend auf SPVConv und stellen dann die 3D Neural Architecture Search (3D-NAS) vor, um die optimale Netzwerkarchitektur in diesem vielfältigen Designraum effizient und effektiv zu suchen. Experimentelle Ergebnisse bestätigen, dass das resultierende SPVNAS-Modell sowohl schnell als auch präzise ist: Es übertrifft den aktuellen Stand der Technik MinkowskiNet um 3,3 % und rangiert an erster Stelle im wettbewerbsintensiven SemanticKITTI-Leaderboard. Es erreicht zudem eine Rechenaufwandsreduktion von 8-fach und eine Messgeschwindigkeitsverbesserung von 3-fach gegenüber MinkowskiNet bei höherer Genauigkeit. Schließlich übertragen wir unsere Methode auf die 3D-Objekterkennung und erzielen konsistente Verbesserungen gegenüber dem One-Stage-Detection-Baseline auf KITTI.