Lowis3D: Sprachgesteuertes Offene-Welt Instanzbasiertes 3D-Szenenverstehen

Die offene Welt-Instanzbasierte Szenerkennung zielt darauf ab, nicht gesehenen Objektkategorien zu lokalisieren und zu erkennen, die im annotierten Datensatz nicht vorhanden sind. Diese Aufgabe ist herausfordernd, da das Modell sowohl neuartige 3D-Objekte lokalisieren als auch ihre semantischen Kategorien ableiten muss. Ein entscheidender Faktor für den jüngsten Fortschritt in der 2D-offenen Welt-Wahrnehmung ist die Verfügbarkeit von groß angelegten Bild-Text-Paaren aus dem Internet, die ein breites Spektrum an Vokabularkonzepten abdecken. Allerdings ist dieser Erfolg aufgrund der Knappheit von 3D-Text-Paaren schwer in 3D-Szenarien nachzuvollziehen. Um diese Herausforderung anzugehen, schlagen wir vor, vortrainierte visuelle-sprachliche (VL) Grundmodelle zu nutzen, die umfangreiches Wissen aus Bild-Text-Paaren kodieren, um Beschriftungen für mehrfache Ansichten von 3D-Szenen zu generieren. Dies ermöglicht es uns, explizite Assoziationen zwischen 3D-Formen und semantikreichen Beschriftungen herzustellen. Darüber hinaus entwickeln wir hierarchische Punkte-Beschriftungs-Assoziationsmethoden, um semantisch bewusste Einbettungen zu erlernen, die die 3D-Geometrie zwischen 3D-Punkten und mehrfachen Ansichten ausnutzen. Dies verbessert das feingranulare visuell-semantische Repräsentationslernen aus Beschriftungen für die Klassifikation auf Objektebene.Zudem adressieren wir die Lokalisierungsherausforderung für neue Klassen im offenen Weltsetting durch die Entwicklung einer entverzerrten Instanzlokalisierung. Dabei werden Objektgruppierungsmodulen unter Verwendung instanzbasierter Pseudüberwachung mit unannotierten Daten trainiert. Dies verbessert erheblich die Generalisierungsfähigkeiten der Instanzgruppierung und damit die Fähigkeit, neuartige Objekte präzise zu lokalisieren. Wir führen umfangreiche Experimente in den Bereichen 3D-semantische Segmentierung, Instanzsegmentierung und Panoptische Segmentierung durch, wobei wir sowohl innere als auch außere Szenen in drei Datensätzen untersuchen. Unsere Methode übertrifft Baseline-Methoden bei der semantischen Segmentierung (z.B. 34,5%~65,3%), der Instanzsegmentierung (z.B. 21,8%~54,0%) und der panoptischen Segmentierung (z.B. 14,7%~43,3%) deutlich. Der Quellcode wird zur Verfügung gestellt.注释:- "offene Welt" 是 "open-world" 的德语翻译。- "Instanzbasierte Szenerkennung" 是 "instance-level scene understanding" 的德语翻译。- "semantikreich" 是 "semantic-rich" 的德语翻译。- "Pseudüberwachung" 是 "pseudo supervision" 的德语翻译。- "Panoptische Segmentierung" 是 "panoptic segmentation" 的德语翻译。