Command Palette
Search for a command to run...
Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

초록
우리는 RGB 포인트 클라우드와 자연어 프롬프트를 입력으로 받아, 부분 수준의 경계 상자, 의미적 설명 및 편집 명령을 포함하는 단일이고 일관된 토큰 시퀀스를 자동 생성하는 원천적인 3D 다중모달 대규모 언어 모델인 Part-X-MLLM을 소개한다. 이 모델은 다양한 3D 작업을 구조적이고 실행 가능한 문법으로 프로그램으로 정의함으로써, 이를 통합한다. 생성된 구조적 출력은 부분 기반의 생성 및 편집을 위한 하류의 기하학적 인식 모듈을 제어하는 유연한 인터페이스로 활용된다. 기호적 계획과 기하학적 합성 간의 분리 구조를 통해, 본 접근법은 단일한 언어 기반 프론트엔드를 통해 호환 가능한 모든 기하학 엔진을 제어할 수 있도록 한다. 우리는 구조와 의미, 지시어를 분리하기 위해 이중 인코더 아키텍처를 사전 훈련하였으며, 대규모의 부분 중심 데이터셋을 기반으로 모델을 지시어 훈련하였다. 실험 결과, 본 모델이 높은 품질의 구조적 계획을 생성함으로써, 하나의 통합 인터페이스를 통해 지상 기반 질의응답(Q&A), 복합적 생성, 국소적 편집에서 최신 기술 수준의 성능을 달성함을 입증하였다. 프로젝트 페이지: https://chunshi.wang/Part-X-MLLM/