HyperAIHyperAI
vor 3 Monaten

Virtuelle Multi-View-Fusion für die 3D-Semantische Segmentierung

Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru
Virtuelle Multi-View-Fusion für die 3D-Semantische Segmentierung
Abstract

Die semantische Segmentierung von 3D-Meshes ist ein zentrales Problem für das Verständnis von 3D-Szenen. In diesem Artikel untersuchen wir erneut die klassische Multiview-Darstellung von 3D-Meshes und analysieren mehrere Techniken, die deren Wirksamkeit für die semantische Segmentierung von Meshes verbessern. Gegeben ein aus RGBD-Sensoren rekonstruiertes 3D-Mesh wählt unsere Methode effektiv verschiedene virtuelle Ansichten des 3D-Meshes aus und rendert mehrere 2D-Kanäle, um ein effektives 2D-Segmentierungsmodell zu trainieren. Abschließend werden die Merkmale aus mehreren pro-Ansicht-Vorhersagen auf den Knotenpunkten des 3D-Meshes gefasst, um semantische Segmentierungsetiketten für den Mesh vorherzusagen. Anhand der großen, in Innenräumen angelegten Benchmark-Datenbank ScanNet zeigen wir, dass unsere virtuellen Ansichten eine effektivere Ausbildung von 2D-Segmentierungsnetzwerken im Vergleich zu früheren Multiview-Ansätzen ermöglichen. Wenn die 2D-Pixelvorhersagen auf 3D-Oberflächen aggregiert werden, erreicht unsere Methode der virtuellen Multiview-Fusion signifikant bessere Ergebnisse bei der 3D-Semantiksegmentierung als alle vorherigen Multiview-Ansätze und ist mit den neuesten 3D-Convolution-Ansätzen konkurrenzfähig.