FPNN : Field Probing Neural Networks pour les Données 3D

La construction de représentations discriminantes pour les données 3D est une tâche importante dans la recherche en infographie et en vision par ordinateur. Les réseaux neuronaux convolutifs (CNNs) ont montré leur efficacité sur les images 2D pour diverses tâches. Étendre les opérateurs de convolution à la dimension 3D (3DCNNs) semble être une étape plausible et prometteuse. Malheureusement, la complexité computationnelle des 3DCNNs augmente cubiquement avec la résolution des voxels. De plus, comme la plupart des représentations géométriques 3D sont basées sur les frontières, les régions occupées ne s'accroissent pas proportionnellement avec la taille de la discrétisation, ce qui entraîne un gaspillage de calcul. Dans cette étude, nous représentons les espaces 3D comme des champs volumiques et proposons un nouveau design utilisant des filtres d'exploration de champ pour extraire efficacement des caractéristiques de ces champs. Chaque filtre d'exploration de champ est un ensemble de points d'exploration --- capteurs qui perçoivent l'espace. Notre algorithme d'apprentissage optimise non seulement les poids associés aux points d'exploration, mais aussi leurs positions, ce qui déforme la forme des filtres d'exploration et les distribue adaptativement dans l'espace 3D. Les points d'exploration optimisés perçoivent l'espace 3D « intelligemment », plutôt que d'opérer aveuglément sur tout le domaine. Nous montrons que l'exploration de champ est significativement plus efficace que les 3DCNNs, tout en offrant des performances de pointe sur des tâches de classification pour des jeux de données de référence en reconnaissance d'objets 3D.