3D Gated Recurrent Fusion für die semantische Szenen-Vervollständigung

Diese Arbeit behandelt das Problem der Datenfusion im Rahmen der semantischen Szenenkompletierung (Semantic Scene Completion, SSC), einem Ansatz, der gleichzeitig semantische Klassifizierung und Szenenrekonstruktion bewältigen kann. RGB-Bilder enthalten texturale Details von Objekten, die für das semantische Verständnis der Szene entscheidend sind. Gleichzeitig liefern Tiefenbilder geometrische Hinweise, die von hoher Relevanz für die Formrekonstruktion sind. Die Kombination beider Modalitäten – RGB und Tiefenbilder – ermöglicht eine signifikante Steigerung der Genauigkeit der SSC im Vergleich zur Nutzung einer einzelnen Modality allein. Wir stellen ein 3D-gated recurrent fusion network (GRFNet) vor, das lernt, relevante Informationen aus Tiefen- und RGB-Daten adaptiv auszuwählen und zu fusionieren, indem es Gatter- und Speichermodule nutzt. Aufbauend auf der Einzelstufenfusion entwickeln wir zudem eine mehrstufige Fusionstrategie, die Korrelationen zwischen verschiedenen Stufen innerhalb des Netzwerks modellieren kann. Ausführliche Experimente auf zwei etablierten Benchmark-Datensätzen belegen die herausragende Leistungsfähigkeit und Wirksamkeit des vorgeschlagenen GRFNet für die Datenfusion in der SSC. Der Quellcode wird verfügbar gemacht.