HyperAIHyperAI

Command Palette

Search for a command to run...

ShapeLLM: Universelle 3D-Objektverstehenskraft für verkörperte Interaktion

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

Zusammenfassung

Dieses Papier stellt ShapeLLM vor, das erste 3D-Multimodale Large Language Model (LLM), das für die verkörperte Interaktion entwickelt wurde und eine universelle 3D-Objektverarbeitung mit 3D-Punktwolken und Sprache erforscht. ShapeLLM basiert auf einem verbesserten 3D-Codierer, der durch die Erweiterung von ReCon zu ReCon++ entstand, wobei letzteres von der mehrfachansichtsbasierten Bilddestillierung profitiert, um das geometrische Verständnis zu verbessern. Durch die Nutzung von ReCon++ als 3D-Punktwolken-Eingabecodierer für LLMs wird ShapeLLM auf konstruierten Anweisungsdaten trainiert und auf unserem neu menschlich erstellten Benchmark, dem 3D MM-Vet, getestet. ReCon++ und ShapeLLM erzielen den aktuellen Stand der Technik in der 3D-Geometrieverarbeitung und sprachunifizierten 3D-Interaktionsaufgaben, wie z.B. der verkörperten visuellen Grundlegung. Projektseite: https://qizekun.github.io/shapellm/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp