Un réseau graphique hiérarchique pour la détection d'objets 3D sur des nuages de points

La détection d'objets 3D sur des nuages de points trouve de nombreuses applications. Toutefois, la plupart des méthodes connues de détection d'objets sur nuages de points n'ont pas suffisamment pris en compte les caractéristiques intrinsèques de ces derniers (par exemple, leur sparsité), ce qui entraîne une capture insuffisante d'informations sémantiques essentielles (comme les informations de forme). Dans cet article, nous proposons un nouveau réseau hiérarchique à graphes (HGNet) basé sur une convolution de graphe (GConv) pour la détection d'objets 3D, capable de traiter directement les nuages de points bruts afin de prédire des boîtes englobantes 3D. HGNet capte efficacement les relations entre les points et exploite les sémantiques à plusieurs niveaux pour la détection d'objets. Plus précisément, nous introduisons une nouvelle GConv attentive à la forme (SA-GConv), conçue pour capturer les caractéristiques locales de forme en modélisant les positions géométriques relatives des points afin de décrire précisément la forme des objets. Un réseau en forme de U basé sur SA-GConv permet de capturer des caractéristiques multi-niveaux, qui sont ensuite projetées dans un même espace de caractéristiques par un module de vote amélioré, avant d'être utilisées pour générer des propositions. Ensuite, un nouveau module de raisonnement sur les propositions, basé sur GConv, analyse ces propositions en tenant compte des sémantiques globales de la scène, permettant ainsi la prédiction finale des boîtes englobantes. En conséquence, notre nouvelle architecture surpasse les méthodes de pointe sur deux grands jeux de données de nuages de points, avec une amélioration de 4 % en précision moyenne (mAP) sur SUN RGB-D et de 3 % sur ScanNet-V2.