ARKit LabelMaker: Eine Neue Skala für die 3D-Innenraumszene-Verstehens

Die Leistung von neuronalen Netzen skaliert sowohl mit ihrer Größe als auch mit der Menge an Daten, auf denen sie trainiert wurden. Dies zeigt sich sowohl bei Sprach- als auch bei Bildgenerierung. Allerdings erfordert dies skalierfähige Netzarchitekturen sowie umfangreiche Datensätze. Obwohl skalierfähige Architekturen wie Transformer für 3D-Vision-Aufgaben entwickelt wurden, bleibt das GPT-Moment der 3D-Vision aufgrund des Mangels an Trainingsdaten fern. In dieser Arbeit stellen wir ARKit LabelMaker vor, den ersten umfangreichen, realweltlichen 3D-Datensatz mit dichten semantischen Annotationen. Insbesondere ergänzen wir den ARKitScenes-Datensatz durch dichte semantische Annotationen, die automatisch und in großem Maßstab generiert werden. Dazu erweitern wir LabelMaker, eine neuartige Pipeline für automatische Annotationen, um die Anforderungen des umfangreichen Vortrainings zu erfüllen. Dies beinhaltet die Erweiterung der Pipeline um moderne Segmentierungsmodelle sowie die Stärkung ihrer Robustheit gegenüber den Herausforderungen des großen Maßstabs. Darüber hinainaus verbessern wir den Stand der Technik in Bezug auf die Leistung auf den Datensätzen ScanNet und ScanNet200 mit gängigen Modellen für 3D-semantische Segmentierung, was die Effizienz unseres generierten Datensatzes unterstreicht.