SalsaNext: Schnelle, unsicherheitsbewusste semantische Segmentierung von LiDAR-Punktwolken für autonomes Fahren

In dieser Arbeit stellen wir SalsaNext vor, eine Methode zur unsicherheitsbewussten semantischen Segmentierung eines vollständigen 3D-LiDAR-Punktwolken in Echtzeit. SalsaNext ist die nächste Version von SalsaNet [1], das eine Encoder-Decoder-Architektur aufweist, bei der der Encoder-Block eine Reihe von ResNet-Blöcken enthält und der Decoder-Teil die aus den Residualblöcken aufgeprobten Merkmale kombiniert. Im Gegensatz zu SalsaNet führen wir ein neues Kontextmodul ein, ersetzen die ResNet-Encoder-Blöcke durch einen neuen Stapel residueller dilatierter Faltungen mit allmählich wachsenden Rezeptivfeldern und fügen im Decoder eine Pixel-Shuffle-Schicht hinzu. Zudem wechseln wir von strider Convolution zu Average Pooling und wenden zudem die zentrale Dropout-Behandlung an. Um den Jaccard-Index direkt zu optimieren, kombinieren wir zudem den gewichteten Kreuzentropieverlust mit dem Lovasz-Softmax-Verlust [2]. Schließlich integrieren wir eine bayesianische Behandlung, um die epistemische und aleatorische Unsicherheit für jeden Punkt in der Punktwolke zu berechnen. Wir liefern eine gründliche quantitative Auswertung am Semantic-KITTI-Datensatz [3], die zeigt, dass das vorgeschlagene SalsaNext andere state-of-the-art semantische Segmentierungsnetze übertrifft und erster Rang im Semantic-KITTI-Leaderboard erreicht. Des Weiteren veröffentlichen wir unseren Quellcode unter https://github.com/TiagoCortinhal/SalsaNext.