PointLLM: 대규모 언어 모델이 포인트 클라우드를 이해하도록 지원하기

대형 언어 모델(LLM)의 전례 없는 발전은 자연어 처리에 깊은 영향을 미쳤지만, 아직 3D 이해 분야를 완전히 포괄하지는 못하고 있습니다. 본 논문에서는 이 간극을 메우기 위한 초기 시도인 PointLLM을 소개합니다. PointLLM은 LLM이 포인트 클라우드를 이해할 수 있도록 하고, 2D 시각 데이터를 넘어서는 새로운 방향성을 제시합니다. PointLLM은 인간의 지시에 따라 색상이 있는 객체 포인트 클라우드를 이해하고, 문맥에 적절한 응답을 생성하여 포인트 클라우드와 상식을 파악하는 능력을 보여줍니다. 특히, 강력한 LLM과 포인트 클라우드 인코더를 활용하여 기하학적, 외관적, 언어적 정보를 효과적으로 융합합니다. 우리는 66만 개의 단순한 포인트-텍스트 지시 쌍과 7만 개의 복잡한 포인트-텍스트 지시 쌍으로 구성된 새로운 데이터셋을 수집하여 잠재 공간 정렬과 이후 지시 조정 훈련 전략의 두 단계 훈련 방법을 가능하게 합니다.PointLLM의 인식 및 일반화 능력을 철저히 평가하기 위해, 우리는 Generative 3D Object Classification(생성형 3D 객체 분류)와 3D Object Captioning(3D 객체 캡셔닝)이라는 두 가지 벤치마크를 설정하였습니다. 이 벤치마크는 인간 평가, GPT-4/ChatGPT 평가, 그리고 전통적인 메트릭스 등 세 가지 다른 방법으로 평가됩니다. 실험 결과는 PointLLM이 기존의 2D 및 3D 베이스라인보다 우수한 성능을 보임을 나타내며, 특히 인간 평가에서 수행되는 객체 캡셔닝 작업에서 절반 이상의 샘플에서 인간 주석자들을 능가하는 뚜렷한 성취를 보였습니다. 코드, 데이터셋, 벤치마크는 https://github.com/OpenRobotLab/PointLLM 에서 제공됩니다.