HyperAIHyperAI
il y a 2 mois

Recherche d'architectures 3D efficaces avec convolution point-voxel creuse

Haotian Tang; Zhijian Liu; Shengyu Zhao; Yujun Lin; Ji Lin; Hanrui Wang; Song Han
Recherche d'architectures 3D efficaces avec convolution point-voxel creuse
Résumé

Les véhicules autonomes doivent comprendre efficacement et avec précision les scènes en 3D afin de circuler en toute sécurité. Étant donné les ressources matérielles limitées, les modèles de perception 3D existants ne sont pas capables de reconnaître très bien les petites instances (par exemple, piétons, cyclistes) en raison de la voxelisation à faible résolution et du sous-échantillonnage agressif. Pour remédier à cela, nous proposons la convolution point-voxel creuse (Sparse Point-Voxel Convolution, SPVConv), un module 3D léger qui équipe la convolution creuse standard d'une branche basée sur des points à haute résolution. Avec une surcharge négligeable, cette branche basée sur des points est capable de préserver les détails fins même dans des scènes extérieures de grande taille. Pour explorer le spectre des modèles 3D efficaces, nous définissons d'abord un espace de conception d'architecture flexible basé sur SPVConv, puis nous présentons la recherche d'architecture neuronale 3D (3D Neural Architecture Search, 3D-NAS) pour rechercher l'architecture réseau optimale dans cet espace de conception diversifié de manière efficace et performante. Les résultats expérimentaux valident que le modèle SPVNAS résultant est rapide et précis : il surpasse le MinkowskiNet de référence actuelle avec une amélioration de 3,3 % et se classe en première position sur le tableau des meilleurs scores compétitifs du SemanticKITTI. Il réalise également une réduction de calcul par facteur 8 et un accroissement mesuré de vitesse par facteur 3 par rapport au MinkowskiNet tout en offrant une meilleure précision. Enfin, nous transférons notre méthode à la détection d'objets en 3D, où elle obtient des améliorations constantes par rapport à la ligne de base de détection en une étape sur KITTI.

Recherche d'architectures 3D efficaces avec convolution point-voxel creuse | Articles de recherche récents | HyperAI