View-volume Netzwerk für semantische Szenevervollständigung aus einem einzelnen Tiefenbild

Wir stellen ein View-Volume Convolutional Neural Network (VVNet) vor, das dazu dient, die Besetzung und semantischen Klassifikationen eines volumnetrischen 3D-Szenarios aus einem einzelnen Tiefenbild zu inferieren. Das VVNet verbindet ein 2D-Blick-CNN mit einem 3D-Volumen-CNN durch eine differenzierbare Projektionsschicht. Anhand eines einzelnen RGBD-Bildes extrahiert unser Verfahren mit einem 2D-Blick-CNN die detaillierten geometrischen Merkmale aus dem Eingabetiefenbild und projiziert diese Merkmale anschließend in ein 3D-Volumen auf Basis der Eingabetiefenkarte mittels einer Projektionsschicht. Danach lernen wir die 3D-Kontextinformationen des Szenarios mit einem 3D-Volumen-CNN, um die resultierende volumnetrische Besetzung und die semantischen Klassifikationen zu berechnen. Durch die Kombination von 2D- und 3D-Darstellungen reduziert das VVNet den Rechenaufwand effizient, ermöglicht die Merkmalsextraktion aus mehrkanaligen Hochauflösungseingaben und verbessert somit erheblich die Genauigkeit der Ergebnisse. Wir überprüfen unsere Methode und demonstrieren ihre Effizienz und Wirksamkeit anhand sowohl synthetischer SUNCG- als auch realer NYU-Datensätze.