Aufmerksamkeitsbasiertes multimodales Fusionsnetzwerk für die semantische Szenenkompletierung

Diese Arbeit präsentiert ein end-to-end-3D-Faltungsnetzwerk namens attention-basiertes multimodales Fusionsnetzwerk (AMFNet) für die Aufgabe der semantischen Szenenkompletierung (Semantic Scene Completion, SSC), bei der die Besetzungs- und semantischen Etiketten eines volumetrischen 3D-Szenen aus Einzelansicht-RGB-D-Bildern abgeleitet werden sollen. Im Gegensatz zu früheren Methoden, die lediglich semantische Merkmale aus RGB-D-Bildern extrahieren, lernt das vorgeschlagene AMFNet gleichzeitig effektive 3D-Szenenkompletierung und semantische Segmentierung durch Ausnutzung der Erfahrung beim Ableiten von 2D-Semantiksegmentierung aus RGB-D-Bildern sowie der zuverlässigen Tiefeninformationen in räumlicher Dimension. Dies wird erreicht durch die Verwendung einer multimodalen Fusionsarchitektur, die auf 2D-Semantiksegmentierung aufbaut, sowie eines 3D-semantischen Kompletierungsnetzwerks, das durch Residual-Attention-Blöcke verstärkt wird. Wir validieren unsere Methode sowohl auf dem synthetischen SUNCG-RGBD-Datensatz als auch auf dem realen NYUv2-Datensatz. Die Ergebnisse zeigen, dass unsere Methode gegenüber der Stand der Technik jeweils eine Verbesserung um 2,5 % auf dem synthetischen SUNCG-RGBD-Datensatz und 2,6 % auf dem realen NYUv2-Datensatz erreicht.