HyperAIHyperAI
vor 3 Monaten

Aufmerksamkeitsbasiertes multimodales Fusionsnetzwerk für die semantische Szenenkompletierung

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao
Aufmerksamkeitsbasiertes multimodales Fusionsnetzwerk für die semantische Szenenkompletierung
Abstract

Diese Arbeit präsentiert ein end-to-end-3D-Faltungsnetzwerk namens attention-basiertes multimodales Fusionsnetzwerk (AMFNet) für die Aufgabe der semantischen Szenenkompletierung (Semantic Scene Completion, SSC), bei der die Besetzungs- und semantischen Etiketten eines volumetrischen 3D-Szenen aus Einzelansicht-RGB-D-Bildern abgeleitet werden sollen. Im Gegensatz zu früheren Methoden, die lediglich semantische Merkmale aus RGB-D-Bildern extrahieren, lernt das vorgeschlagene AMFNet gleichzeitig effektive 3D-Szenenkompletierung und semantische Segmentierung durch Ausnutzung der Erfahrung beim Ableiten von 2D-Semantiksegmentierung aus RGB-D-Bildern sowie der zuverlässigen Tiefeninformationen in räumlicher Dimension. Dies wird erreicht durch die Verwendung einer multimodalen Fusionsarchitektur, die auf 2D-Semantiksegmentierung aufbaut, sowie eines 3D-semantischen Kompletierungsnetzwerks, das durch Residual-Attention-Blöcke verstärkt wird. Wir validieren unsere Methode sowohl auf dem synthetischen SUNCG-RGBD-Datensatz als auch auf dem realen NYUv2-Datensatz. Die Ergebnisse zeigen, dass unsere Methode gegenüber der Stand der Technik jeweils eine Verbesserung um 2,5 % auf dem synthetischen SUNCG-RGBD-Datensatz und 2,6 % auf dem realen NYUv2-Datensatz erreicht.