vor 2 Monaten

OpenMask3D: Offen-vokabuläre 3D-Instanzsegmentierung

Takmaz, Ayça ; Fedele, Elisabetta ; Sumner, Robert W. ; Pollefeys, Marc ; Tombari, Federico ; Engelmann, Francis

Abstract

Wir stellen die Aufgabe der offenen Vokabular-3D-Instanzsegmentierung vor. Aktuelle Ansätze für die 3D-Instanzsegmentierung können in der Regel nur Objektkategorien aus einer vordefinierten, geschlossenen Menge von Klassen erkennen, die in den Trainingsdatensätzen annotiert sind. Dies führt zu erheblichen Einschränkungen bei realen Anwendungen, bei denen man möglicherweise Aufgaben durchführen muss, die von neuartigen, offenen Vokabularanfragen geleitet werden, die sich auf eine Vielzahl von Objekten beziehen. Kürzlich sind Methoden zur offenen Vokabular-3D-Szenenverstehens entstanden, um dieses Problem anzugehen, indem sie für jeden Punkt in der Szene abfragbare Merkmale lernen. Obwohl eine solche Repräsentation direkt zur Durchführung der semantischen Segmentierung verwendet werden kann, können bestehende Methoden mehrere Objektinstanzen nicht trennen. In dieser Arbeit adressieren wir diese Einschränkung und schlagen OpenMask3D vor, einen Ansatz für die offene Vokabular-3D-Instanzsegmentierung ohne vorherige Kenntnis (zero-shot). Unser Modell aggregiert maskenbezogene Merkmale durch mehrsichtige Fusion von CLIP-basierten Bildembeddings, geleitet durch vorhersagte klassifikationsunabhängige 3D-Instanzmasken. Experimente und Abstraktionsstudien auf ScanNet200 und Replica zeigen, dass OpenMask3D andere offene Vokabularmethoden übertrifft, insbesondere bei der langen Schwanzverteilung (long-tail distribution). Qualitative Experimente verdeutlichen zudem die Fähigkeit von OpenMask3D, Objekteigenschaften basierend auf freiformigen Anfragen zu segmentieren, die Geometrie, Handhabbarkeit und Materialien beschreiben.