Utilisation d'un fer à gaufres pour la segmentation sémantique des nuages de points automobiles

La segmentation sémantique des nuages de points dans les ensembles de données pour la conduite autonome nécessite des techniques capables de traiter un grand nombre de points efficacement. Les convolutions 3D creuses sont devenues l'outil de facto pour construire des réseaux neuronaux profonds destinés à cette tâche : elles exploitent la parcimonie des nuages de points pour réduire les charges mémoire et computationnelles et constituent le cœur des meilleures méthodes actuelles. Dans cet article, nous proposons une méthode alternative qui atteint le niveau des méthodes d'avant-garde sans nécessiter l'utilisation de convolutions creuses. Nous démontrons en effet que ce niveau de performance peut être atteint en s'appuyant sur des outils a priori inadaptés à l'échelle et aux hautes performances de la perception 3D. En particulier, nous présentons une nouvelle architecture 3D, WaffleIron, composée presque exclusivement de perceptrons multicouches (MLPs) et de convolutions 2D denses, et expliquons comment l'entraîner pour obtenir d'excellentes performances sur SemanticKITTI et nuScenes. Nous croyons que WaffleIron constitue une alternative convaincante aux architectures utilisant des convolutions 3D creuses, notamment dans les cadres logiciels et sur les matériels où ces convolutions ne sont pas facilement disponibles.