SGAligner : Alignement de Scènes 3D avec des Graphes de Scène

La construction de graphes de scènes 3D est récemment apparue comme un sujet dans la représentation des scènes pour plusieurs applications d'IA incarnée, permettant de représenter le monde de manière structurée et riche. Avec leur utilisation croissante pour résoudre des tâches en aval (par exemple, la navigation et le réaménagement des pièces), peut-on les exploiter et recycler pour créer des cartes 3D des environnements, une étape cruciale dans l'opération des agents ? Nous nous concentrons sur le problème fondamental d'alignement de paires de graphes de scènes 3D dont la superposition peut varier de zéro à partielle et qui peuvent contenir des modifications arbitraires. Nous proposons SGAligner, la première méthode d'alignement de paires de graphes de scènes 3D qui est robuste aux scénarios réels (c'est-à-dire une superposition inconnue -- s'il y en a une -- et des changements dans l'environnement). Nous nous inspirons des graphes de connaissances multi-modalités et utilisons l'apprentissage par contraste pour apprendre un espace d'embedding joint et multi-modal. Nous évaluons notre méthode sur le jeu de données 3RScan et montrons également que notre méthode peut être utilisée pour estimer la transformation entre paires de scènes 3D. Comme il n'existe pas encore de benchmarks pour ces tâches, nous les créons sur ce jeu de données. Le code, les benchmarks et les modèles entraînés sont disponibles sur le site web du projet.