Zwei-Strömungs-3D-Semantische-Szene-Vervollständigung

Die Inferenz der 3D-Geometrie und der semantischen Bedeutung von verdeckten Oberflächen ist eine sehr herausfordernde Aufgabe. Kürzlich wurde ein erster Ansatz für das end-to-end Lernen vorgeschlagen, der eine Szene aus einem einzelnen Tiefenbild vervollständigt. Dieser Ansatz diskretisiert die Szene in Voxel und prognostiziert für jeden Voxel, ob er besetzt ist und, falls dies der Fall ist, die zugehörige semantische Klassifikation. In dieser Arbeit schlagen wir einen zweistrombasierten Ansatz vor, der Tiefeninformationen und semantische Informationen nutzt, die aus dem RGB-Bild abgeleitet werden, um diese Aufgabe zu lösen. Der Ansatz erstellt einen unvollständigen 3D-semantischen Tensor, der eine kompakte dreikanalige Kodierung für die abgeleiteten semantischen Informationen verwendet, und wendet ein 3D-CNN an, um den vollständigen 3D-semantischen Tensor zu inferieren. In unserer experimentellen Auswertung zeigen wir, dass der vorgeschlagene zweistrombasierte Ansatz den aktuellen Stand der Technik bei der semantischen Szenevervollständigung deutlich übertrifft.