Apprentissage d'une représentation géométrique désenchevêtrée pour une compréhension complémentaire des nuages de points d'objets 3D

Dans le traitement d’images 2D, certaines approches décomposent les images en composantes à haute et basse fréquence afin de représenter respectivement les bords et les régions lisses. De manière similaire, le contour et les zones planes des objets 3D — par exemple, la bordure et la surface d’assise d’une chaise — décrivent des géométries différentes mais complémentaires. Toutefois, cette distinction est souvent perdue dans les réseaux profonds antérieurs, qui traitent tous les points ou les patches locaux de manière équivalente lors de la compréhension des nuages de points. Pour résoudre ce problème, nous proposons le Geometry-Disentangled Attention Network (GDANet). GDANet introduit un module Geometry-Disentangle qui décompose dynamiquement les nuages de points en deux composantes distinctes : le contour et la surface plane des objets 3D, respectivement représentés par des composantes à variation aiguë (sharp) et à variation douce (gentle). Ensuite, GDANet met en œuvre un module d’attention complémentaire Sharp-Gentle, qui considère les caractéristiques provenant des composantes à variation aiguë et douce comme deux représentations globales, tout en leur attribuant des niveaux d’attention différents lors de leur fusion respective avec les caractéristiques initiales du nuage de points. Ainsi, notre méthode capture et affine les sémantiques géométriques 3D globales et complémentaires à partir de deux composantes déconnectées, afin de compléter l’information locale. Des expériences étendues sur des benchmarks de classification et de segmentation d’objets 3D démontrent que GDANet atteint des performances de pointe avec un nombre réduit de paramètres. Le code source est disponible à l’adresse suivante : https://github.com/mutianxu/GDANet.