Command Palette
Search for a command to run...
3DMV: Gemeinsame 3D-Multi-View-Vorhersage für die 3D-Semantische Szenensegmentierung
3DMV: Gemeinsame 3D-Multi-View-Vorhersage für die 3D-Semantische Szenensegmentierung
Dai Angela Nieß ner Matthias
Zusammenfassung
Wir stellen 3DMV vor, eine neuartige Methode zur 3D-semantischen Szenensegmentierung von RGB-D-Scans in Innenräumen, die auf einem gemeinsamen 3D-Mehrbild-Vorhersage-Netzwerk basiert. Im Gegensatz zu bestehenden Ansätzen, die entweder geometrische Daten oder RGB-Daten als Eingabe für diese Aufgabe verwenden, kombinieren wir beide Datentypen in einer gemeinsamen, end-to-end-Netzarchitektur. Anstatt die Farbdaten lediglich in ein volumetrisches Gitter zu projizieren und ausschließlich im 3D-Raum zu arbeiten – was zu unzureichender Detailgenauigkeit führen würde – extrahieren wir zunächst Merkmalskarten aus den zugehörigen RGB-Bildern. Diese Merkmale werden anschließend mittels einer differenzierbaren Rückprojektionsschicht in das volumetrische Merkmalsgitter eines 3D-Netzwerks abgebildet. Da unser Ziel Szenarien mit 3D-Scans ist, die möglicherweise eine große Anzahl von Bildern umfassen, verwenden wir eine Mehraufnahme-Pooling-Strategie, um eine variable Anzahl von RGB-Eingabebildern zu verarbeiten. Diese lernbasierte Kombination von RGB- und geometrischen Merkmalen in unserer gemeinsamen 2D-3D-Architektur erreicht signifikant bessere Ergebnisse als bestehende Baselines. Beispielsweise steigt die Genauigkeit unserer Endlösung im ScanNet-3D-Segmentierungsbenchmark gegenüber bestehenden volumetrischen Architekturen von 52,8 % auf 75 %.