SceneGraphFusion : Prédiction incrémentale du graphe de scène 3D à partir de séquences RGB-D

Les graphes de scène constituent une représentation compacte et explicite largement utilisée dans diverses tâches de compréhension de scènes 2D. Ce travail propose une méthode permettant de construire progressivement des graphes de scène sémantiques à partir d’un environnement 3D à partir d’une séquence d’images RGB-D. Pour cela, nous agrégons les caractéristiques PointNet extraites à partir de composants scéniques élémentaires au moyen d’un réseau neuronal de graphe. Nous proposons également un nouveau mécanisme d’attention particulièrement adapté aux données de graphe partielles ou manquantes, typiques dans un tel scénario de reconstruction incrémentale. Bien que notre méthode soit conçue pour fonctionner sur des sous-cartes de scène, nous démontrons qu’elle se généralise également à des scènes 3D entières. Les expérimentations montrent que notre approche surpasse de manière significative les méthodes existantes de prédiction de graphes de scène 3D, tout en atteignant une précision comparable à celle des méthodes d’annotation sémantique et panoptique 3D, avec une cadence de traitement de 35 Hz.