Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell
Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Abstract
Wir stellen Part-X-MLLM vor, ein natively 3D-multimodales Großmodell, das verschiedene 3D-Aufgaben vereint, indem sie als Programme in einer strukturierten, ausführbaren Grammatik formuliert werden. Gegeben eine RGB-Punktwolke und eine natürliche Sprachanfrage generiert unser Modell autoregressiv eine einzige, kohärente Token-Sequenz, die Teil-Grenzboxen, semantische Beschreibungen und Bearbeitungsbefehle kodiert. Diese strukturierte Ausgabe dient als vielseitige Schnittstelle, um nachgeschaltete, geometriebewusste Module für die generation- und bearbeitungsbasierte Teil-Modellierung zu steuern. Durch die Entkopplung der symbolischen Planung von der geometrischen Synthese ermöglicht unser Ansatz die Steuerung jedes kompatiblen Geometrie-Engines über eine einzige, sprachnative Oberfläche. Wir prätrainieren eine Dual-Encoder-Architektur, um Struktur von Semantik zu entkoppeln, und fine-tunen das Modell auf einem großskaligen, teilzentrierten Datensatz. Experimente zeigen, dass unser Modell herausragende Leistung bei der Erzeugung hochwertiger, strukturierter Pläne erzielt und damit einen state-of-the-art-Performance in grounded Q&A, kompositorischer Generierung und lokalisierten Bearbeitungen über eine einheitliche Schnittstelle ermöglicht. Projektseite: https://chunshi.wang/Part-X-MLLM/
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.