SGAligner: 3D-Szenenausrichtung mit Szenegraphen

Das Erstellen von 3D-Szenengraphen ist kürzlich als Thema in der Szenendarstellung für mehrere verkörperte KI-Anwendungen hervorgetreten, um die Welt auf strukturierte und reichhaltige Weise darzustellen. Mit ihrem vermehrten Einsatz zur Lösung nachgeschalteter Aufgaben (z. B. Navigation und Umgestaltung von Räumen) stellt sich die Frage, ob wir sie nutzen und recyceln können, um 3D-Karten von Umgebungen zu erstellen, einen entscheidenden Schritt im Agentenbetrieb. Wir konzentrieren uns auf das grundlegende Problem des Ausrichtens von Paaren von 3D-Szenengraphen, deren Überlappung von null bis teilweise reichen kann und beliebige Veränderungen enthalten kann. Wir schlagen SGAligner vor, die erste Methode zum Ausrichten von Paaren von 3D-Szenengraphen, die robust gegenüber realweltlichen Szenarien (d.h., unbekanntem Überlapp – falls vorhanden – und Veränderungen in der Umgebung) ist. Inspiriert durch multimodale Wissensgraphen verwenden wir kontrastives Lernen, um einen gemeinsamen, multimodalen Einbettungsraum zu erlernen. Wir evaluieren unsere Methode am 3RScan-Datensatz und zeigen ferner, dass sie zur Schätzung der Transformation zwischen Paaren von 3D-Szenen verwendet werden kann. Da es für diese Aufgaben keine Benchmarks gibt, erstellen wir diese am genannten Datensatz. Der Code, die Benchmark und die trainierten Modelle sind auf der Projektwebsite verfügbar.