LangScene-X: Rekonstruiere generalisierbare 3D sprachgekoppelte Szenen mit TriMap-Videos-Diffusion

Die Wiederherstellung von 3D-Strukturen mit offener Vokabular-Szenenverstehens aus 2D-Bildern ist eine grundlegende, aber schwierige Aufgabe. Kürzliche Entwicklungen haben dies durch die Durchführung einer szenenbasierten Optimierung mit eingebetteten Sprachinformationen erreicht. Allerdings hängen sie stark von dem kalibrierten Paradigma der dichten Sichtwinkelrekonstruktion ab und leiden daher bei begrenzten Sichtwinkeln unter schwerwiegenden Rendering-Artefakten und unglaubwürdigen semantischen Synthesen. In dieser Arbeit stellen wir einen neuen generativen Rahmen vor, den wir LangScene-X nennen, um konsistente 3D-multimodale Informationen für Rekonstruktion und Verstehen zu vereinen und zu generieren. Dank der generativen Fähigkeit, konsistentere neue Beobachtungen zu schaffen, können wir verallgemeinerbare 3D-sprachlich eingebettete Szenen nur aus spärlichen Ansichten aufbauen. Insbesondere trainieren wir zunächst ein TriMap-Videodiffusionsmodell, das durch fortschreitende Wissenseinbindung Erscheinungsbild (RGBs), Geometrie (Normalen) und Semantik (Segmentierungskarten) aus spärlichen Eingaben generieren kann. Darüber hinaus schlagen wir einen sprachquantisierten Kompressor (LQC) vor, der anhand großer Bild-Datensätze trainiert wird, um Sprach-Einbettungen effizient zu kodieren und so die Verallgemeinerbarkeit über verschiedene Szenen ohne erneutes Training pro Szene zu ermöglichen. Schließlich rekonstruieren wir die sprachlichen Oberflächenfelder, indem wir Sprachinformationen auf die Oberfläche von 3D-Szenen ausrichten, was offene sprachliche Abfragen ermöglicht. Ausführliche Experimente mit realen Daten zeigen die Überlegenheit unseres LangScene-X in Bezug auf Qualität und Verallgemeinerbarkeit gegenüber den aktuellen Methoden. Projektseite: https://liuff19.github.io/LangScene-X.