SceneSplat: Szenenverstehen basierend auf Gaussian Splatting mit Vision-Sprache-Vortrainierung

Die Erkennung beliebiger oder bisher nicht gesehener Kategorien ist entscheidend für eine umfassende Verständnis von realen 3D-Szenen. Derzeit beruhen alle bestehenden Methoden entweder während des Trainings oder gemeinsam bei der Inferenz auf 2D- oder textuellen Modalitäten. Dies unterstreicht deutlich das Fehlen eines Modells, das 3D-Daten allein zur end-to-end-Lernung von Semantik verarbeiten kann, zusammen mit den notwendigen Daten, um ein solches Modell zu trainieren. Gleichzeitig hat sich die 3D-Gauß-Splatting-(3DGS)-Technik als Standard für die 3D-Szenendarstellung in verschiedenen Aufgaben des maschinellen Sehens etabliert. Die effektive Integration von semantischer Schlussfolgerung in 3DGS auf allgemein gültige Weise bleibt jedoch weiterhin eine offene Herausforderung. Um diese Limitationen zu überwinden, stellen wir SceneSplat vor – soweit uns bekannt, den ersten großskaligen Ansatz zur 3D-Innenraum-Szenenverarbeitung, der natively auf 3DGS basiert. Darüber hinaus schlagen wir ein selbstüberwachtes Lernverfahren vor, das eine reichhaltige 3D-Feature-Lernung aus unlabeled Szenen ermöglicht. Zur Unterstützung der vorgeschlagenen Methoden führen wir SceneSplat-7K ein, die erste großskalige 3DGS-Datenbank für Innenräume, bestehend aus 7916 Szenen, die aus sieben etablierten Datensätzen wie ScanNet und Matterport3D abgeleitet wurden. Die Erstellung von SceneSplat-7K erforderte Rechenressourcen in Höhe von 150 GPU-Tagen auf einem L4-GPU, was eine standardisierte Benchmarking-Plattform für 3DGS-basierte Schlussfolgerungen in Innenräumen ermöglicht. Unsere umfassenden Experimente auf SceneSplat-7K belegen den signifikanten Vorteil des vorgeschlagenen Ansatzes gegenüber etablierten Baselines.