2달 전

ShapeLLM: 체화된 상호작용을 위한 보편적인 3D 객체 이해

Qi, Zekun ; Dong, Runpei ; Zhang, Shaochen ; Geng, Haoran ; Han, Chunrui ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng
ShapeLLM: 체화된 상호작용을 위한 보편적인 3D 객체 이해
초록

이 논문은 ShapeLLM을 소개합니다. ShapeLLM은 첫 번째 3D 다중모달 대형 언어 모델(LLM)로, 3D 포인트 클라우드와 언어를 활용하여 물체의 통합적인 3D 이해를 위한 구현 상호작용을 탐구합니다. ShapeLLM은 ReCon을 확장하여 개선된 3D 인코더인 ReCon++을 기반으로 구축되었습니다. ReCon++은 다중 뷰 이미지 증류를 통해 향상된 기하학적 이해력을 제공합니다. ReCon++을 LLM의 3D 포인트 클라우드 입력 인코더로 활용하여, ShapeLLM은 구조화된 지시사항 추종 데이터로 훈련되었으며, 우리 새롭게 인간이 큐레이션한 벤치마크인 3D MM-Vet에서 테스트되었습니다. ReCon++과 ShapeLLM은 3D 기하학적 이해와 언어 통합 3D 상호작용 과제(예: 구현 시각적 근거 찾기)에서 최고 수준의 성능을 달성했습니다.프로젝트 페이지: https://qizekun.github.io/shapellm/

ShapeLLM: 체화된 상호작용을 위한 보편적인 3D 객체 이해 | 최신 연구 논문 | HyperAI초신경