Symphoniser l'achèvement sémantique 3D de la scène avec des requêtes d'instances contextuelles

Le Complétion Sémantique de Scène 3D (SSC) est émergée comme une entreprise nouvelle et cruciale dans le domaine de la conduite autonome, visant à prédire l'occupation des voxels au sein de scènes volumétriques. Cependant, les méthodologies actuelles se concentrent principalement sur l'agrégation des caractéristiques par voxel, négligeant ainsi les sémantiques d'instances et le contexte de la scène. Dans cet article, nous présentons un nouveau paradigme appelé Symphonies (Scene-from-Insts), qui explore l'intégration de requêtes d'instances pour orchestrer la reconstruction 2D-3D et la modélisation de scènes 3D. En utilisant nos attentions propagées sériellement par instance proposées, Symphonies encode dynamiquement les sémantiques centrées sur les instances, facilitant des interactions complexes entre les domaines basés sur les images et les domaines volumétriques. En même temps, Symphonies permet une compréhension holistique de la scène en capturant le contexte grâce à une fusion efficace des requêtes d'instances, atténuant ainsi l'ambiguïté géométrique telle que l'occlusion et les erreurs de perspective par le raisonnement contextuel de la scène. Les résultats expérimentaux montrent que Symphonies atteint des performances de pointe sur des benchmarks difficiles tels que SemanticKITTI et SSCBench-KITTI-360, avec des scores mIoU remarquables de 15,04 et 18,58 respectivement. Ces résultats mettent en lumière les avancées prometteuses du paradigme. Le code est disponible à l'adresse suivante : https://github.com/hustvl/Symphonies.