vor 2 Monaten

ShapeLLM: Universelle 3D-Objektverstehenskraft für verkörperte Interaktion

Qi, Zekun ; Dong, Runpei ; Zhang, Shaochen ; Geng, Haoran ; Han, Chunrui ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng

Abstract

Dieses Papier stellt ShapeLLM vor, das erste 3D-Multimodale Large Language Model (LLM), das für die verkörperte Interaktion entwickelt wurde und eine universelle 3D-Objektverarbeitung mit 3D-Punktwolken und Sprache erforscht. ShapeLLM basiert auf einem verbesserten 3D-Codierer, der durch die Erweiterung von ReCon zu ReCon++ entstand, wobei letzteres von der mehrfachansichtsbasierten Bilddestillierung profitiert, um das geometrische Verständnis zu verbessern. Durch die Nutzung von ReCon++ als 3D-Punktwolken-Eingabecodierer für LLMs wird ShapeLLM auf konstruierten Anweisungsdaten trainiert und auf unserem neu menschlich erstellten Benchmark, dem 3D MM-Vet, getestet. ReCon++ und ShapeLLM erzielen den aktuellen Stand der Technik in der 3D-Geometrieverarbeitung und sprachunifizierten 3D-Interaktionsaufgaben, wie z.B. der verkörperten visuellen Grundlegung. Projektseite: https://qizekun.github.io/shapellm/