HyperAIHyperAI
il y a 15 jours

Apprentissage d'une agrégation multi-vue en conditions réelles pour la segmentation sémantique 3D à grande échelle

Damien Robert, Bruno Vallet, Loic Landrieu
Apprentissage d'une agrégation multi-vue en conditions réelles pour la segmentation sémantique 3D à grande échelle
Résumé

Les travaux récents sur la segmentation sémantique 3D proposent d’exploiter la synergie entre les images et les nuages de points en traitant chaque modalité avec un réseau dédié, puis en projetant les caractéristiques apprises en 2D sur les points 3D. Le regroupement de grands nuages de points et d’images soulève plusieurs défis, notamment la construction d’une correspondance entre points et pixels, ainsi que l’agrégation des caractéristiques issues de plusieurs vues. Les méthodes actuelles nécessitent une reconstruction de maillage ou des capteurs spécialisés pour restaurer les zones occluses, et recourent à des heuristiques pour sélectionner et agréger les images disponibles. À l’inverse, nous proposons un modèle d’agrégation multi-vues entièrement entraînable en boucle, exploitant les conditions de visualisation des points 3D pour fusionner les caractéristiques provenant d’images prises depuis des positions arbitraires. Notre approche peut combiner des réseaux 2D et 3D standards, et dépasse à la fois les modèles 3D agissant sur des nuages de points colorisés et les architectures hybrides 2D/3D, sans nécessiter de colorisation, de maillage ni de cartes de profondeur réelles. Nous établissons une nouvelle référence pour la segmentation sémantique à grande échelle en intérieur et en extérieur sur S3DIS (74,7 mIoU, 6-Fold) et sur KITTI-360 (58,3 mIoU). L’intégralité de notre pipeline est disponible à l’adresse suivante : https://github.com/drprojects/DeepViewAgg, et ne requiert que des scans 3D bruts, ainsi qu’un ensemble d’images et de poses.

Apprentissage d'une agrégation multi-vue en conditions réelles pour la segmentation sémantique 3D à grande échelle | Articles de recherche récents | HyperAI