Drive&Segment: Unsupervised Semantic Segmentation von städtischen Szenen durch cross-modale Distillation

Diese Arbeit untersucht das Lernen von pixelgenauen semantischen Bildsegmentierungen in städtischen Szenen ohne jegliche manuelle Annotation, allein anhand von rohen, nicht vorgearbeiteten Daten, die von Fahrzeugen gesammelt werden, die mit Kameras und LiDAR-Sensoren ausgestattet sind und durch eine Stadt fahren. Unsere Beiträge sind dreifach. Erstens stellen wir eine neuartige Methode für die multimodale, unüberwachte Lernung semantischer Bildsegmentierung vor, die synchronisierte LiDAR- und Bilddaten nutzt. Der zentrale Bestandteil unserer Methode ist ein Objektschätzungsmodul, das die LiDAR-Punktwolke analysiert, um Vorschläge für räumlich konsistente Objekte zu generieren. Zweitens zeigen wir, dass diese 3D-Objektschätzungen mit den Eingabebildern aligniert und zuverlässig in semantisch sinnvolle Pseudoklassen gruppiert werden können. Drittens entwickeln wir einen multimodalen Distillationansatz, der Bilddaten nutzt, die teilweise mit den resultierenden Pseudoklassen annotiert sind, um ein transformerbasiertes Modell für die semantische Bildsegmentierung zu trainieren. Wir demonstrieren die Generalisierungsfähigkeit unserer Methode durch Tests auf vier unterschiedlichen Testdatensätzen (Cityscapes, Dark Zurich, Nighttime Driving und ACDC) ohne jegliches Nachtrainieren und zeigen signifikante Verbesserungen gegenüber dem aktuellen Stand der Technik für dieses Problem. Weitere Informationen, einschließlich des Quellcodes, finden Sie auf der Projektwebseite: https://vobecant.github.io/DriveAndSegment/.