RGBD-basiertes dimensionsales Zerlegungsresiduennetzwerk für die 3D semantische Szenevervollständigung

RGB-Bilder unterscheiden sich von Tiefenbildern dadurch, dass sie mehr Details über Farb- und Texturinformationen enthalten, die als wichtige Ergänzung zur Tiefe verwendet werden können, um die Leistung der 3D semantischen Szenevollständigung (SSC) zu verbessern. Die SSC besteht aus der 3D Formvollständigung (SC) und der semantischen Szenenbeschriftung, während die meisten bestehenden Methoden die Tiefe als einzige Eingabe verwenden, was zu einer Leistungsflaschenhals führt. Darüber hinaus verwenden die neuesten Methoden 3D-CNNs, die aufwendige Netzwerke und eine enorme Anzahl von Parametern haben. Wir stellen ein leichtgewichtiges Dimensionszerlegungsresiduumsnetzwerk (DDR) für 3D dichte Vorhersageaufgaben vor. Das neuartige faktorisierte Faltungsschicht ist effektiv zur Reduzierung der Netzwerkparameter, und das vorgeschlagene Multiskalen-Fusionsmechanismus für Tiefen- und Farbbild kann gleichzeitig die Vollständigkeits- und Segmentierungsgenauigkeit verbessern. Unsere Methode zeigt ausgezeichnete Ergebnisse auf zwei öffentlichen Datensätzen. Im Vergleich zur neuesten Methode SSCNet erzielen wir eine Steigerung von 5,9 % im SC-IoU und 5,7 % im SSC-IoU, obwohl wir nur 21 % der Netzwerkparameter und 16,6 % der FLOPs im Vergleich zu SSCNet verwenden.请注意,这里“FLOPs”指的是“floating point operations per second”,在德语中通常保留为英文缩写。