3DMV: Gemeinsame 3D-Multi-Sicht-Vorhersage für die 3D-semantische Szene-Segmentierung

Wir präsentieren 3DMV, eine neuartige Methode zur 3D-semantischen Szene-segmentierung von RGB-D-Scans in Innenräumen unter Verwendung eines gemeinsamen 3D-Mehransicht-Vorhersagenetzes. Im Gegensatz zu bestehenden Methoden, die entweder geometrische oder RGB-Daten als Eingabe für diese Aufgabe verwenden, kombinieren wir beide Datentypen in einer gemeinsamen, end-to-end Netzarchitektur. Anstatt Farbinformationen einfach in ein volumetrisches Gitter zu projizieren und ausschließlich in 3D zu operieren – was zu unzureichenden Details führen würde – extrahieren wir zunächst Featuremaps aus den zugehörigen RGB-Bildern. Diese Features werden dann mithilfe einer differenzierbaren Rückprojektionsschicht in das volumetrische Featuregitter eines 3D-Netzes abgebildet. Da unser Ziel 3D-Scanning-Szenarien mit möglicherweise vielen Frames sind, verwenden wir einen Mehransicht-Pooling-Ansatz, um eine variable Anzahl von RGB-Eingangsbildern zu verarbeiten. Diese gelernte Kombination von RGB- und geometrischen Features mit unserer gemeinsamen 2D-3D-Architektur erzielt signifikant bessere Ergebnisse als bestehende Baselines. Zum Beispiel steigt unsere endgültige Genauigkeit auf dem ScanNet 3D-Segmentationsbenchmark von 52,8 % auf 75 % im Vergleich zu bestehenden volumetrischen Architekturen.