FIDNet: Semantische Segmentierung von LiDAR-Punktwolken mit vollständiger Interpolationsdekodierung

Die Projektion des Punktwolken-Datensatzes auf ein 2D-sphärisches Abstands-Bild transformiert die LiDAR-Semantische Segmentierung in eine 2D-Segmentierungsaufgabe auf dem Abstands-Bild. Allerdings unterscheidet sich das LiDAR-Abstands-Bild von einem regulären 2D-RGB-Bild; zum Beispiel kodiert jede Position im Abstands-Bild die einzigartige geometrische Information. In dieser Arbeit schlagen wir einen neuen projektorientierten LiDAR-Semantiksegmentierungsprozess vor, der aus einer neuartigen Netzstruktur und einem effizienten Nachbearbeitungsschritt besteht. In unserer Netzstruktur haben wir ein FID-Modul (Fully Interpolation Decoding) entwickelt, das die mehrskaligen Merkmalskarten direkt durch bilineare Interpolation vergrößert. Inspiriert von der 3D-Distanzinterpolation, die in PointNet++ verwendet wird, argumentieren wir, dass dieses FID-Modul eine 2D-Version der Distanzinterpolation im $(θ, ϕ)$-Raum darstellt. Als parameterfreies Dekodierungsmodul reduziert das FID die Modellkomplexität erheblich, wobei es gleichzeitig eine gute Leistung aufrechterhält. Neben der Netzstruktur haben wir empirisch festgestellt, dass unsere Modellvorhersagen klare Grenzen zwischen verschiedenen semantischen Klassen aufweisen. Dies lässt uns überdenken, ob die weit verbreitete K-nearest-neighbor-Nachbearbeitung für unseren Prozess noch erforderlich ist. Anschließend erkennen wir, dass die Viele-zu-Eins-Zuordnung einen Verschwommeneffekt verursacht, bei dem einige Punkte in denselben Pixel abgebildet werden und das gleiche Label teilen. Daher schlagen wir vor, diese verdeckten Punkte durch Zuweisung des nächsten vorhergesagten Labels zu bearbeiten. Diese NLA (Nearest Label Assignment)-Nachbearbeitung zeigt in der Ablationsstudie eine bessere Leistung als KNN mit schnellerer Inferenzgeschwindigkeit. Auf dem SemanticKITTI-Datensatz erreicht unser Prozess unter allen projektorientierten Methoden mit einer Auflösung von $64 \times 2048$ sowie unter allen punktgenauen Lösungen die beste Leistung. Mit ResNet-34 als Backbone kann sowohl das Training als auch das Testen unseres Modells auf einer einzelnen RTX 2080 Ti mit 11 GB Speicher abgeschlossen werden. Der Code wurde veröffentlicht.请注意,这里将“point cloud”翻译为“Punktwolken-Datensatz”,以更符合德语的表达习惯。同时,“spherical range image”被翻译为“sphärisches Abstands-Bild”,“semantic segmentation”为“Semantische Segmentierung”,这些术语在德语文献中较为常用。此外,“K-nearest-neighbor”被翻译为“K-nearest-neighbor”(KNN),因为这是国际上通用的技术术语,通常不会进行本地化翻译。其他部分也进行了相应的调整,以确保译文的流畅性和正式性。