HyperAIHyperAI
vor 2 Monaten

OpenScene: 3D-Szenenverstehen mit offenen Vokabularen

Peng, Songyou ; Genova, Kyle ; Jiang, Chiyu Max ; Tagliasacchi, Andrea ; Pollefeys, Marc ; Funkhouser, Thomas
OpenScene: 3D-Szenenverstehen mit offenen Vokabularen
Abstract

Traditionelle Ansätze zur 3D-Szenenverstehens basieren auf etikettierten 3D-Datensätzen, um ein Modell für eine einzelne Aufgabe unter Aufsicht zu trainieren. Wir schlagen OpenScene vor, einen alternativen Ansatz, bei dem ein Modell dichte Merkmale für 3D-Szenenpunkte vorhersagt, die zusammen mit Text und Bildpixeln im CLIP-Merkmalsraum eingebettet sind. Dieser zero-shot-Ansatz ermöglicht aufgabenunabhängiges Training und offene Vokabularabfragen. Zum Beispiel kann er zur durchführung des neuesten zero-shot 3D-semantic segmentierungsprozesses zunächst CLIP-Merkmale für jeden 3D-Punkt inferieren und diese anschließend auf der Grundlage von Ähnlichkeiten zu Einbettungen beliebiger Klassenbezeichnungen klassifizieren. Interessanterweise ermöglicht dieser Ansatz eine Reihe von offenen Vokabularanwendungen zur Szenenverstehens, die bisher noch nicht realisiert wurden. Zum Beispiel kann ein Benutzer eine beliebige Textabfrage eingeben und dann ein Wärmebild sehen, das anzeigt, welche Teile einer Szene übereinstimmen. Unser Ansatz ist effektiv bei der Identifikation von Objekten, Materialien, Affordancen (Affordances), Aktivitäten und Raumtypen in komplexen 3D-Szenen, alles mithilfe eines einzigen Modells, das ohne irgendeine etikettierte 3D-Daten trainiert wurde.

OpenScene: 3D-Szenenverstehen mit offenen Vokabularen | Neueste Forschungsarbeiten | HyperAI