360° aus einer einzelnen Kamera: Ein Few-Shot-Ansatz für die LiDAR-Segmentierung

Anwendungen des Deep Learning auf LiDAR-Daten leiden unter einem starken Domänenunterschied, wenn sie auf verschiedene Sensoren oder Aufgaben angewendet werden. Um diese Methoden auf unterschiedlichen Datensätzen eine vergleichbare Genauigkeit zu ermöglichen wie die in öffentlichen Benchmarks berichteten Werte, ist ein großskaliges, annotiertes Datensatz notwendig. In der praktischen Anwendung sind jedoch gelabelte Daten kostspielig und zeitaufwendig zu beschaffen. Diese Herausforderungen haben verschiedene Forschungsarbeiten zu label-effizienten Methoden ausgelöst, doch ein erheblicher Leistungsabstand zu ihren vollständig überwachten Gegenstücken bleibt bestehen. Daher schlagen wir ImageTo360 vor – einen effektiven und schlanken Few-Shot-Ansatz für label-effiziente LiDAR-Segmentierung. Unser Verfahren nutzt ein Bild-Teacher-Netzwerk, um semantische Vorhersagen für LiDAR-Daten innerhalb einer einzigen Kameraperspektive zu generieren. Der Teacher dient zur Vortrainierung des LiDAR-Segmentierungs-Student-Netzwerks, das anschließend optional auf 360°-Daten feinabgestimmt werden kann. Unser Ansatz wird modular auf Punktebene implementiert und ist daher auf verschiedene Architekturen übertragbar. Wir erreichen eine Verbesserung gegenüber den aktuellen State-of-the-Art-Ergebnissen bei label-effizienten Methoden und übertreffen sogar einige traditionelle, vollständig überwachte Segmentierungsnetzwerke.