HyperAIHyperAI
il y a 2 mois

Point-Voxel CNN pour une apprentissage profond 3D efficace

Zhijian Liu; Haotian Tang; Yujun Lin; Song Han
Point-Voxel CNN pour une apprentissage profond 3D efficace
Résumé

Nous présentons le Point-Voxel CNN (PVCNN) pour une apprentissage profond 3D efficace et rapide. Les travaux précédents traitaient les données 3D en utilisant soit des modèles de réseaux neuronaux (NN) basés sur les voxels, soit des modèles basés sur les points. Cependant, ces deux approches sont inefficaces sur le plan computationnel. Le coût de calcul et l'empreinte mémoire des modèles basés sur les voxels augmentent cubiquement avec la résolution d'entrée, rendant difficile l'augmentation de la résolution en raison des contraintes mémoire. Quant aux réseaux basés sur les points, jusqu'à 80 % du temps est gaspillé à structurer les données éparse qui ont une localité mémoire plutôt faible, plutôt qu'à extraire réellement des caractéristiques.Dans cet article, nous proposons le PVCNN qui représente les données d'entrée 3D sous forme de points pour réduire la consommation mémoire, tout en effectuant les convolutions dans les voxels pour réduire l'accès aux données irrégulières et éparse et améliorer la localité. Notre modèle PVCNN est à la fois efficace en termes de mémoire et de calcul. Évalué sur des jeux de données de segmentation sémantique et de parties, il atteint une précision beaucoup plus élevée que le modèle basé sur les voxels avec une réduction de la mémoire GPU par un facteur 10 ; il dépasse également les modèles pointuels d'avant-garde avec un accélération mesurée moyenne de 7 fois.Remarquablement, la version plus étroite du PVCNN réalise un gain de vitesse de 2 fois celui du PointNet (un modèle extrêmement efficace) sur les benchmarks de segmentation de parties et de scènes, tout en offrant une précision bien supérieure. Nous validons l'efficacité générale du PVCNN dans la détection d'objets 3D : en remplaçant les primitives du Frustrum PointNet par PVConv, il dépasse le Frustrum PointNet++ en moyenne de 2,4 % mAP avec un accélération mesurée de 1,5 fois et une réduction de la mémoire GPU.

Point-Voxel CNN pour une apprentissage profond 3D efficace | Articles de recherche récents | HyperAI