2달 전

3D-LLM: 3차원 세계를 대형 언어 모델에 통합하기

Hong, Yining ; Zhen, Haoyu ; Chen, Peihao ; Zheng, Shuhong ; Du, Yilun ; Chen, Zhenfang ; Gan, Chuang
3D-LLM: 3차원 세계를 대형 언어 모델에 통합하기
초록

대형 언어 모델(LLM)과 시각-언어 모델(VLM)은 상식 추론 등의 여러 작업에서 뛰어난 성능을 보이는 것으로 입증되었습니다. 이러한 모델들이 강력함에도 불구하고, 공간 관계, 사용 가능성, 물리학, 배치 등과 같은 풍부한 개념이 포함된 3D 물리 세계에 기반하지 않는다는 한계가 있습니다. 본 연구에서는 대형 언어 모델에 3D 세계를 도입하여 새로운 3D-LLM(3D Large Language Model) 가족을 소개합니다. 구체적으로, 3D-LLM은 3D 포인트 클라우드와 그 특성을 입력으로 받아 캡셔닝, 밀도 캡셔닝, 3D 질문 응답, 작업 분해, 3D 지상화, 3D 지원 대화, 탐색 등을 포함한 다양한 3D 관련 작업을 수행할 수 있습니다.우리가 설계한 세 가지 유형의 프롬프팅 메커니즘을 사용하여 이러한 작업을 다루는 30만 개 이상의 3D-언어 데이터를 수집할 수 있었습니다. 3D-LLM을 효율적으로 학습하기 위해 먼저 렌더링된 다중 시점 이미지에서 3D 특성을 추출하는 3D 특성 추출기를 활용합니다. 이후에는 2D VLM을 백본으로 사용하여 우리의 3D-LLM을 학습시킵니다. 3D 위치 결정 메커니즘을 도입함으로써, 3D-LLM은 더 나은 방식으로 3D 공간 정보를 포착할 수 있게 되었습니다.ScanQA 실험 결과, 우리의 모델은 기존 최신 기준모델보다 크게 우수한 성능을 보였습니다(예: BLEU-1 점수가 최신 점수를 9% 초과). 또한, 우리가 보유하고 있는 3D 캡셔닝, 작업 구성 및 3D 지원 대화 데이터셋에 대한 실험에서도 우리의 모델이 2D VLM보다 우수한 성능을 보임을 확인할 수 있었습니다. 정성적 예제들은 또한 우리의 모델이 기존 LLM 및 VLM의 범위를 넘어 더 많은 작업을 수행할 수 있음을 보여줍니다. 프로젝트 페이지: https://vis-www.cs.umass.edu/3dllm/.

3D-LLM: 3차원 세계를 대형 언어 모델에 통합하기 | 최신 연구 논문 | HyperAI초신경