HyperAIHyperAI
il y a 2 mois

Complétion sémantique de scène 3D avec prise en compte des esquisses via une structure a priori semi-supervisée

Chen, Xiaokang ; Lin, Kwan-Yee ; Qian, Chen ; Zeng, Gang ; Li, Hongsheng
Résumé

L'objectif de la tâche de complétion sémantique de scène (SSC) est de prédire simultanément une représentation 3D complète en voxels de l'occupation volumétrique et des étiquettes sémantiques des objets dans la scène à partir d'une seule observation. Comme le coût computationnel augmente généralement de manière explosive avec l'augmentation de la résolution des voxels, la plupart des méthodes actuelles doivent adapter leur cadre à une représentation basse résolution au détriment de la prédiction des détails. Ainsi, la résolution des voxels devient l'une des difficultés cruciales qui entraînent un goulot d'étranglement des performances.Dans cet article, nous proposons une nouvelle stratégie basée sur la géométrie pour intégrer les informations de profondeur avec une représentation basse résolution en voxels, ce qui permet toujours d'encoder suffisamment d'informations géométriques, par exemple, la disposition des pièces, les tailles et formes des objets, afin d'inférer les zones invisibles de la scène avec des détails bien préservés. À cette fin, nous proposons tout d'abord une nouvelle méthode d'embedding de caractéristiques sensible aux esquisses 3D pour encoder efficacement et efficacement les informations géométriques. Avec l'esquisse 3D en main, nous élaborons ensuite un cadre simple mais efficace pour la complétion sémantique de scène qui intègre un module léger d'hallucination d'esquisse 3D pour guider l'inférence de l'occupation et des étiquettes sémantiques grâce à une stratégie d'apprentissage semi-supervisé de priorité structurelle. Nous montrons que notre embedding géométrique proposé fonctionne mieux que l'apprentissage habituel des caractéristiques de profondeur dans les cadres SSC courants. Notre modèle final dépasse constamment les méthodes actuelles sur trois benchmarks publics, nécessitant uniquement des volumes 3D de résolution 60 x 36 x 60 pour les entrées et sorties. Le code source et le matériel supplémentaire seront disponibles à l'adresse suivante : https://charlesCXK.github.io.

Complétion sémantique de scène 3D avec prise en compte des esquisses via une structure a priori semi-supervisée | Articles de recherche récents | HyperAI