HyperAIHyperAI
vor 16 Tagen

Lernen der 3D-Semantischen Segmentierung mit nur 2D-Bild-Supervision

Kyle Genova, Xiaoqi Yin, Abhijit Kundu, Caroline Pantofaru, Forrester Cole, Avneesh Sud, Brian Brewington, Brian Shucker, Thomas Funkhouser
Lernen der 3D-Semantischen Segmentierung mit nur 2D-Bild-Supervision
Abstract

Mit dem jüngsten Wachstum von Stadtkartierungs- und autonomen Fahranwendungen ist eine explosive Zunahme an rohen 3D-Daten aus terrestrischen Plattformen mit Lidar-Scannern und Farbkameras zu verzeichnen. Aufgrund der hohen Kosten für die Annotation sind jedoch Ground-Truth-3D-Semantiksegmentierungsmarkierungen sowohl quantitativ begrenzt als auch geographisch wenig vielfältig und schwer zwischen Sensoren übertragbar. Im Gegensatz dazu sind große Bildsammlungen mit Ground-Truth-Semantiksegmentierungen für vielfältige Szenen leicht verfügbar. In diesem Artikel untersuchen wir, wie man ausschließlich solche annotierten 2D-Bildsammlungen zur Supervision des Trainings von 3D-Semantiksegmentierungsmodellen nutzen kann. Unser Ansatz besteht darin, ein 3D-Modell aus Pseudomarkierungen zu trainieren, die aus 2D-Semantik-Bildsegmentierungen mittels Multiview-Fusion abgeleitet werden. Wir behandeln mehrere neuartige Herausforderungen dieses Ansatzes, darunter die Auswahl vertrauenswürdiger Pseudomarkierungen, die Stichprobenziehung von 3D-Szenen mit seltenen Objektkategorien sowie die Entkoppelung der Eingabefeatures aus 2D-Bildern von den Pseudomarkierungen während des Trainings. Die vorgeschlagene Netzarchitektur, 2D3DNet, erreicht im Experiment auf einem neuen städtischen Datensatz mit Lidar- und Bilddaten aus 20 Städten auf fünf Kontinenten deutlich bessere Ergebnisse (+6,2 bis +11,4 mIoU) als die Baseline-Modelle.