Datenverstärkte 3D semantische Szenenkompletierung mit 2D Segmentierungsprioritäten

Die semantische Szenenkompletierung (Semantic Scene Completion, SSC) ist eine herausfordernde Aufgabe im Bereich des Computer Vision mit zahlreichen praktischen Anwendungen, etwa in der Robotik oder assistiven Computing. Ihr Ziel besteht darin, die 3D-Geometrie eines Sichtfelds einer Szene sowie die semantischen Bezeichnungen der Voxel – einschließlich verdeckter Bereiche – abzuleiten. In dieser Arbeit präsentieren wir SPAwN, ein neuartiges, leichtgewichtiges multimodales 3D-Deep-CNN, das strukturelle Informationen aus der Tiefenkomponente von RGB-D-Bildern nahtlos mit semantischen Priorwissen aus einem bimodalen 2D-Segmentierungssystem fusioniert. Ein entscheidendes Hindernis in diesem Forschungsfeld ist das Fehlen vollständig annotierter, realweltbasierter 3D-Datensätze, die groß genug sind, um die aktuellen datenhungrigen tiefen 3D-CNNs zu trainieren. In 2D-Computer-Vision-Aufgaben wurden zahlreiche Daten-Augmentierungsstrategien vorgeschlagen, um die Generalisierungsfähigkeit von CNNs zu verbessern. Diese Ansätze können jedoch nicht direkt auf die RGB-D-Eingabe- und Ausgabevolumina von SSC-Lösungen angewendet werden. In diesem Paper führen wir eine 3D-Daten-Augmentierungsstrategie ein, die auf multimodale SSC-Netzwerke anwendbar ist. Wir validieren unsere Beiträge durch eine umfassende und reproduzierbare Ablationstudie. Unser Ansatz übertrifft konsistent frühere Arbeiten mit vergleichbarer Komplexität.