Sprachbasierte innenraumbezogene 3D-Semantische Segmentierung in freier Wildbahn

Neuere Fortschritte in der 3D-Semantiksegmentierung mit tiefen neuronalen Netzen haben bemerkenswerte Erfolge gezeigt, wobei die Leistung auf verfügbaren Datensätzen rasant gestiegen ist. Allerdings enthalten aktuelle Benchmarks für die 3D-Semantiksegmentierung nur eine geringe Anzahl an Kategorien – beispielsweise weniger als 30 für ScanNet und SemanticKITTI – was nicht ausreicht, um die Vielfalt realer Umgebungen angemessen widerzuspiegeln (z. B. umfasst die semantische Bildverarbeitung Hunderte bis Tausende von Klassen). Daher schlagen wir vor, eine umfangreichere Vokabellänge für die 3D-Semantiksegmentierung zu untersuchen, indem wir einen erweiterten Benchmark auf Basis von ScanNet-Daten mit 200 Klassenkategorien vorstellen, also eine Größenordnung mehr als bisher untersucht. Diese große Anzahl an Klassenkategorien führt zudem zu einer erheblichen natürlichen Klassenungleichgewichtsverzerrung, was sowohl für bestehende Methoden zur 3D-Semantiksegmentierung herausfordernd ist. Um robusteren 3D-Features in diesem Kontext zu lernen, schlagen wir eine sprachgesteuerte Vortrainingsmethode vor, die darauf abzielt, dass gelernte 3D-Features, die möglicherweise nur wenige Trainingsbeispiele aufweisen, nahe an ihren vortrainierten Text-Embeddings liegen. Ausführliche Experimente zeigen, dass unser Ansatz konsistent die bisherigen State-of-the-Art-Methoden für das Vortrainings in der 3D-Semantiksegmentierung auf unserem vorgeschlagenen Benchmark übertrifft (+9 % relativer mIoU), einschließlich Szenarien mit begrenzten Daten (+25 % relativer mIoU bei lediglich 5 % Annotationen).