Open3DIS: Offener Wortschatz für die 3D-Instanzsegmentierung mit 2D-Maskenführung

Wir stellen Open3DIS vor, eine innovative Lösung, die das Problem der Offenen Vokabular-Instanzsegmentierung in 3D-Szenen angeht. Objekte in 3D-Umgebungen zeigen vielfältige Formen, Größen und Farben, was die präzise Identifikation auf Instanzebene zu einer herausfordernden Aufgabe macht. Neueste Fortschritte im Bereich der Offenen Vokabular-Szenenverstehens haben in dieser Hinsicht erhebliche Schritte vorgeschritten, indem sie klassenunabhängige 3D-Instanzvorschlagsnetzwerke für die Objektlokalisation und lernfähige abfragbare Merkmale für jede 3D-Maske einsetzen. Obwohl diese Methoden hochwertige Instanzvorschläge erzeugen, haben sie Schwierigkeiten bei der Identifikation von kleineren und geometrisch unklaren Objekten. Der Kerngedanke unserer Methode ist ein neues Modul, das 2D-Instanzmasken über mehrere Frames aggregiert und sie zu geometrisch kohärenten Punktwolkenregionen als hochwertige Objektvorschläge abbildet, um die genannten Einschränkungen zu überwinden. Diese werden dann mit klassenunabhängigen 3D-Instanzvorschlägen kombiniert, um eine breite Palette von Objekten in der realen Welt einzubeziehen. Um unseren Ansatz zu validieren, führten wir Experimente auf drei prominenten Datensätzen durch, einschließlich ScanNet200, S3DIS und Replica, wobei signifikante Leistungsverbesserungen bei der Segmentierung von Objekten mit diversen Kategorien gegenüber den bisher besten Verfahren nachgewiesen wurden.