Command Palette
Search for a command to run...
Réseau de fusion sensible à la similarité pour la segmentation sémantique 3D
Réseau de fusion sensible à la similarité pour la segmentation sémantique 3D
Linqing Zhao Jiwen Lu Jie Zhou
Résumé
Dans cet article, nous proposons un réseau de fusion sensible à la similarité (SAFNet) afin de fusionner de manière adaptative des images 2D et des nuages de points 3D pour la segmentation sémantique 3D. Les méthodes de fusion existantes obtiennent des performances remarquables en intégrant des informations provenant de plusieurs modalités. Toutefois, elles reposent fortement sur les correspondances entre les pixels 2D et les points 3D via une projection, et ne permettent la fusion d'informations que selon une approche fixe, ce qui limite leur capacité à s'adapter à des scénarios plus réalistes où les données recueillies manquent souvent de correspondances paires strictes pour la prédiction. Pour surmonter cette limitation, nous adoptons une stratégie de fusion tardive : nous apprenons d'abord les similarités géométriques et contextuelles entre le nuage de points d'entrée et le nuage de points re-projeté à partir des pixels 2D, puis utilisons ces similarités pour guider la fusion des deux modalités, afin d'exploiter au mieux les informations complémentaires. Plus précisément, nous introduisons un module de similarité géométrique (GSM) permettant de comparer directement les distributions de coordonnées spatiales des voisinages 3D appariés, ainsi qu'un module de similarité contextuelle (CSM) chargé d'agréger et de comparer les informations contextuelles spatiales des points centraux correspondants. Ces deux modules proposés permettent efficacement d'évaluer l'apport des caractéristiques d'image aux prédictions, permettant au réseau d'ajuster de manière adaptative les contributions des deux modalités à la prédiction finale de chaque point. Les résultats expérimentaux sur le benchmark ScanNetV2 montrent que SAFNet surpasse significativement les approches de fusion les plus avancées existantes, quelle que soit l'intégrité des données.