HyperAIHyperAI
il y a 13 jours

Fusion récurrente à grille 3D pour la complétion sémantique de scène

Yu Liu, Jie Li, Qingsen Yan, Xia Yuan, Chunxia Zhao, Ian Reid, Cesar Cadena
Fusion récurrente à grille 3D pour la complétion sémantique de scène
Résumé

Ce papier aborde le problème de la fusion de données dans la tâche de complétion sémantique de scène (SSC), qui permet de traiter simultanément l’étiquetage sémantique et la complétion de la scène. Les images RGB contiennent des détails texturaux des objets, essentiels pour la compréhension sémantique de la scène. Par ailleurs, les images de profondeur captent des indices géométriques d’une grande pertinence pour la complétion des formes. L’utilisation conjointe des images RGB et de profondeur permet d’améliorer significativement la précision de la SSC par rapport à l’utilisation d’un seul modality isolée. Nous proposons un réseau de fusion récurrente 3D à portes (GRFNet), qui apprend à sélectionner de manière adaptative et à fusionner les informations pertinentes provenant des données de profondeur et des images RGB grâce à l’emploi de modules de portes et de mémoire. Sur la base d’une fusion à une seule étape, nous introduisons par ailleurs une stratégie de fusion multi-étapes, permettant de modéliser les corrélations entre différentes étapes au sein du réseau. Des expériences étendues sur deux jeux de données de référence démontrent les performances supérieures et l’efficacité de GRFNet proposée pour la fusion de données dans la SSC. Le code source sera rendu disponible.