il y a 19 jours

Segmentation de nuage de points omnivariée par raisonnement progressif sur les composants du champ réceptif

Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma

Résumé

Les caractéristiques cachées dans les réseaux de neurones échouent généralement à apprendre une représentation informative pour la segmentation 3D, car les étiquettes de supervision ne sont fournies qu’au niveau de la prédiction finale, ce qui peut être résolu par une supervision omni-échelle appliquée aux couches intermédiaires. Dans cet article, nous proposons la première méthode de supervision omni-échelle pour la segmentation de nuages de points, basée sur un nouveau mécanisme appelé Raisonnement progressif sur les Composants de Champ Réceptif (RFCR). Dans cette approche, des Codes de Composants de Champ Réceptif Cibles (RFCC) sont conçus pour enregistrer les catégories présentes dans les champs réceptifs des unités cachées du encodeur. Ensuite, ces RFCC cibles supervisent le décodeur afin qu’il infère progressivement les RFCC de manière hiérarchique, du grossier au fin, en suivant un raisonnement catégoriel, avant d’obtenir enfin les étiquettes sémantiques. Étant donné que de nombreuses caractéristiques cachées sont peu actives, avec une amplitude négligeable et une contribution marginale à la prédiction des RFCC, nous proposons une densification des caractéristiques via un potentiel centrifuge, qui permet d’obtenir des caractéristiques plus claires et nettes ; cette méthode est en effet équivalente à une régularisation par entropie appliquée aux caractéristiques. Des caractéristiques plus actives permettent ainsi d’exploiter pleinement le potentiel de notre méthode de supervision omni-échelle. Nous intégrons notre méthode dans quatre architectures de référence courantes et l’évaluons sur trois benchmarks exigeants. Nos expérimentations montrent que notre approche améliore significativement les performances des architectures sur les trois jeux de données. Plus précisément, elle établit de nouvelles performances de pointe (SOTA) sur S3DIS et Semantic3D, et obtient la première place sur le benchmark ScanNet parmi toutes les méthodes basées sur les points. Le code source sera rendu publique à l’adresse suivante : https://github.com/azuki-miho/RFCR.