Command Palette

Search for a command to run...

7일 전

Part-X-MLLM: 부분 인지형 3D 다중모달 대규모 언어 모델

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Part-X-MLLM: 부분 인지형 3D 다중모달 대규모 언어 모델

초록

우리는 RGB 포인트 클라우드와 자연어 프롬프트를 입력으로 받아, 부분 수준의 경계 상자, 의미적 설명 및 편집 명령을 포함하는 단일이고 일관된 토큰 시퀀스를 자동 생성하는 원천적인 3D 다중모달 대규모 언어 모델인 Part-X-MLLM을 소개한다. 이 모델은 다양한 3D 작업을 구조적이고 실행 가능한 문법으로 프로그램으로 정의함으로써, 이를 통합한다. 생성된 구조적 출력은 부분 기반의 생성 및 편집을 위한 하류의 기하학적 인식 모듈을 제어하는 유연한 인터페이스로 활용된다. 기호적 계획과 기하학적 합성 간의 분리 구조를 통해, 본 접근법은 단일한 언어 기반 프론트엔드를 통해 호환 가능한 모든 기하학 엔진을 제어할 수 있도록 한다. 우리는 구조와 의미, 지시어를 분리하기 위해 이중 인코더 아키텍처를 사전 훈련하였으며, 대규모의 부분 중심 데이터셋을 기반으로 모델을 지시어 훈련하였다. 실험 결과, 본 모델이 높은 품질의 구조적 계획을 생성함으로써, 하나의 통합 인터페이스를 통해 지상 기반 질의응답(Q&A), 복합적 생성, 국소적 편집에서 최신 기술 수준의 성능을 달성함을 입증하였다. 프로젝트 페이지: https://chunshi.wang/Part-X-MLLM/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Part-X-MLLM: 부분 인지형 3D 다중모달 대규모 언어 모델 | 연구 논문 | HyperAI초신경