3D-Semantische Segmentierung mit Submannigfaltigkeits-sparse Convolutional Networks

Faltungssnetze sind der de facto-Standard zur Analyse von räumlich-zeitlichen Daten wie Bildern, Videos und 3D-Objekten. Während einige dieser Daten natürlicherweise dicht sind (z.B. Fotos), sind viele andere Datenquellen inhärent dünn besetzt. Beispiele hierfür sind 3D-Punktwolken, die mit einem LiDAR-Sensor oder einer RGB-D-Kamera erfasst wurden. Standardmäßige "dichte" Implementierungen von Faltungssnetzen sind bei der Verarbeitung solcher dünn besetzter Daten sehr ineffizient. Wir stellen neue fachspezifische Faltungsoperationen vor, die darauf ausgelegt sind, räumlich dünn besetzte Daten effizienter zu verarbeiten, und verwenden sie, um räumlich dünn besetzte Faltungssnetze zu entwickeln. Wir zeigen die starke Leistung der resultierenden Modelle, genannt submanifold-sparse-Faltungssnetze (SSCNs) (submanifold sparse convolutional networks), an zwei Aufgaben zur semantischen Segmentierung von 3D-Punktwolken. Insbesondere übertreffen unsere Modelle alle bisherigen Standesder Technik im Testdatensatz eines jüngsten Wettbewerbs zur semantischen Segmentierung.请注意,虽然“submanifold sparse convolutional networks”在德语中可以翻译为“submanifold-sparse-Faltungssnetze”,但为了保持术语的专业性和一致性,建议在首次出现时提供英文术语的标注。