2D-Feature-Distillation für schwach- und semi-supervisiertes 3D-Semantiksegmentierung

Mit der wachsenden Beliebtheit von 3D-Wahrnehmungsproblemen und dem steigenden Bedarf an groß angelegten, annotierten Datensätzen für die LiDAR-Semantiksegmentierung entstehen neue Methoden, die darauf abzielen, die Notwendigkeit dichter Annotationen durch schwach überwachtes Training zu reduzieren. Diese Methoden zeigen jedoch weiterhin schwache Randabschätzungen und hohe Fehlernegative für kleine Objekte und ferne dünn besetzte Bereiche. Wir argumentieren, dass solche Schwächen durch die Verwendung von RGB-Bildern ausgeglichen werden können, die eine dichtere Darstellung der Szene bieten. Wir schlagen ein bildgesteuertes Netzwerk (IGNet) vor, das auf der Idee basiert, hochwertige Merkmalsinformationen aus einem domänenangepassten synthetisch trainierten 2D-Semantiksegmentierungsnetzwerk zu destillieren. Zudem nutzen wir ein einseitiges kontrastives Lernschema zusammen mit einer neuen Mischstrategie namens FOVMix, um den horizontalen Sichtfeldunterschied zwischen den beiden Sensoren zu kompensieren und die Wirkung der bildgesteuerten Anleitung zu verstärken. IGNet erzielt standesüberragende Ergebnisse bei schwach überwachter LiDAR-Semantiksegmentierung auf ScribbleKITTI und erreicht bis zu 98 % der relativen Leistung im Vergleich zum vollständig überwachten Training mit nur 8 % annotierten Punkten, ohne zusätzliche Annotationsschwierigkeiten oder -kosten sowie ohne erhöhten Rechenaufwand oder Speicherverbrauch während der Inferenz. Darüber hinaus zeigen wir, dass unsere Beiträge auch effektiv für halbüberwachtes Training sind, bei dem IGNet standesüberragende Ergebnisse sowohl auf ScribbleKITTI als auch auf SemanticKITTI erzielt.