SqueezeSeg: Faltungsschicht-Neuronale Netze mit rekurrentem CRF für die Echtzeit-Segmentierung von Straßengegenständen aus 3D-LiDAR-Punktwolken

In dieser Arbeit behandeln wir die semantische Segmentierung von Straßenelementen aus 3D-LiDAR-Punktwolken. Insbesondere möchten wir Instanzen von Interesse, wie Autos, Fußgänger und Radfahrer, erkennen und kategorisieren. Wir formulieren dieses Problem als punktweises Klassifizierungsproblem und schlagen eine end-to-end Pipeline namens SqueezeSeg vor, die auf Faltungss neuronalen Netzen (CNN) basiert: Das CNN nimmt eine transformierte LiDAR-Punktwolke als Eingabe entgegen und gibt direkt eine punktweise Labelkarte aus, die dann durch ein konditionales Markowfeld (CRF), implementiert als rekurrente Schicht, verfeinert wird. Instanzbasierte Labels werden anschließend durch herkömmliche Clusteralgorithmen gewonnen. Unser CNN-Modell wird anhand von LiDAR-Punktwolken aus dem KITTI-Datensatz trainiert, und unsere punktweisen Segmentierungslabels werden aus den 3D-Bounding-Boxen des KITTI-Datensatzes abgeleitet. Um zusätzliche Trainingsdaten zu erhalten, haben wir einen LiDAR-Simulator in das populäre Videospiel Grand Theft Auto V (GTA-V) integriert, um große Mengen realistischer Trainingsdaten zu synthetisieren. Unsere Experimente zeigen, dass SqueezeSeg eine hohe Genauigkeit mit erstaunlich schneller und stabiler Laufzeit (8,7 ms pro Frame) erreicht, was für autonome Fahrzeuge sehr wünschenswert ist. Darüber hinaus führt das zusätzliche Training auf synthetischen Daten zu einer Steigerung der Validierungsgenauigkeit auf realen Daten. Unser Quellcode sowie die synthetisierten Daten werden Open Source veröffentlicht.