HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Abstract

Wir stellen Part-X-MLLM vor, ein natively 3D-multimodales Großmodell, das verschiedene 3D-Aufgaben vereint, indem sie als Programme in einer strukturierten, ausführbaren Grammatik formuliert werden. Gegeben eine RGB-Punktwolke und eine natürliche Sprachanfrage generiert unser Modell autoregressiv eine einzige, kohärente Token-Sequenz, die Teil-Grenzboxen, semantische Beschreibungen und Bearbeitungsbefehle kodiert. Diese strukturierte Ausgabe dient als vielseitige Schnittstelle, um nachgeschaltete, geometriebewusste Module für die generation- und bearbeitungsbasierte Teil-Modellierung zu steuern. Durch die Entkopplung der symbolischen Planung von der geometrischen Synthese ermöglicht unser Ansatz die Steuerung jedes kompatiblen Geometrie-Engines über eine einzige, sprachnative Oberfläche. Wir prätrainieren eine Dual-Encoder-Architektur, um Struktur von Semantik zu entkoppeln, und fine-tunen das Modell auf einem großskaligen, teilzentrierten Datensatz. Experimente zeigen, dass unser Modell herausragende Leistung bei der Erzeugung hochwertiger, strukturierter Pläne erzielt und damit einen state-of-the-art-Performance in grounded Q&A, kompositorischer Generierung und lokalisierten Bearbeitungen über eine einheitliche Schnittstelle ermöglicht. Projektseite: https://chunshi.wang/Part-X-MLLM/

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell | Forschungsarbeiten | HyperAI