ViewNet : une nouvelle architecture fondamentale basée sur la projection avec agrégation de vues pour la classification de nuages de points à faibles exemples

Bien que diverses approches aient été proposées pour les tâches liées aux nuages de points 3D, l’apprentissage par peu d’exemples (few-shot learning, FSL) sur les nuages de points 3D reste largement sous-exploité. Dans le cadre du FSL, contrairement à l’apprentissage supervisé traditionnel, les classes des données d’entraînement et de test ne se chevauchent pas, et un modèle doit reconnaître des classes inconnues à partir d’un très petit nombre d’exemples. Les méthodes existantes de FSL pour les nuages de points 3D reposent généralement sur des modèles basés sur les points comme architecture principale. Toutefois, à la suite de nos expérimentations étendues et d’une analyse approfondie, nous montrons pour la première fois que l’utilisation d’un modèle basé sur les points n’est pas la solution la plus adaptée pour le FSL, en raison de deux principaux inconvénients : (i) une grande partie des caractéristiques des points est perdue à cause de l’opération de pooling max utilisée dans les architectures basées sur les points 3D, ce qui réduit la capacité à représenter efficacement l’information de forme ; (ii) les modèles basés sur les points sont particulièrement sensibles à l’occlusion. Pour surmonter ces limitations, nous proposons d’adopter une architecture principale basée sur la projection et les réseaux de neurones à convolution 2D, que nous nommons ViewNet, pour le FSL à partir de nuages de points 3D. Notre approche projette d’abord un nuage de points 3D sur six vues différentes afin de réduire le problème des points manquants. Par ailleurs, pour générer des caractéristiques plus descriptives et discriminantes, nous introduisons une méthode appelée View Pooling, qui combine différentes combinaisons de plans projetés en cinq groupes distincts, puis applique un pooling max à chacun d’eux. Les expérimentations menées sur les jeux de données ModelNet40, ScanObjectNN et ModelNet40-C, avec validation croisée, démontrent que notre méthode surpasse de manière cohérente les meilleures méthodes existantes. En outre, comparée aux architectures classiques de classification d’images telles que ResNet, ViewNet est capable d’extraire des caractéristiques plus discriminantes à partir de multiples vues d’un même nuage de points. Nous montrons également que ViewNet peut servir de base à différentes architectures de FSL (FSL heads) et offre des performances améliorées par rapport aux architectures traditionnellement utilisées.