Réseau de projection bidirectionnelle pour la compréhension scénique multidimensionnelle

Les représentations d’images 2D sont définies sur des grilles régulières et peuvent être traitées de manière efficace, tandis que les nuages de points 3D sont désordonnés et répartis de manière dispersée dans l’espace 3D. Les informations contenues dans ces deux domaines visuels sont fortement complémentaires : par exemple, les images 2D offrent des textures de haute granularité, tandis que les nuages de points 3D contiennent une riche information géométrique. Toutefois, la plupart des systèmes actuels de reconnaissance visuelle traitent ces deux modalités de manière indépendante. Dans cet article, nous proposons un réseau de projection bidirectionnelle (BPNet) permettant une raison commune 2D et 3D de manière end-to-end. Ce modèle comprend deux sous-réseaux 2D et 3D aux architectures symétriques, reliés par un module de projection bidirectionnelle (BPM) que nous introduisons. Grâce à ce BPM, les informations complémentaires provenant des deux domaines visuels peuvent interagir à plusieurs niveaux architecturaux, permettant ainsi de combiner les avantages des deux modalités pour une meilleure reconnaissance de scène. Des évaluations expérimentales quantitatives et qualitatives étendues démontrent que le raisonnement conjoint sur les domaines visuels 2D et 3D bénéficie simultanément à la compréhension des scènes 2D et 3D. Notre BPNet atteint des performances de pointe sur le benchmark ScanNetV2 pour la segmentation sémantique 2D et 3D. Le code est disponible à l’adresse suivante : \url{https://github.com/wbhu/BPNet}.