MiniGPT-3D: 2D 사전 지식을 사용하여 3D 포인트 클라우드를 효율적으로 정렬하는 방법

대형 2D 시각-언어 모델(2D-LLMs)은 간단한 프로젝터를 사용하여 대형 언어 모델(LLMs)과 이미지를 연결함으로써 주목을 받고 있습니다. 이들의 성공에 영감을 받아, 대형 3D 포인트 클라우드-언어 모델(3D-LLMs)도 LLMs에 포인트 클라우드를 통합하고 있습니다. 그러나, 포인트 클라우드를 LLM과 직접 맞춤화하는 것은 A100 GPU에서 수백 시간의 비싼 훈련 비용이 필요해 3D-LLMs의 개발을 방해하고 있습니다. 본 논문에서는 효율적이고 강력한 3D-LLM인 MiniGPT-3D를 소개합니다. 이 모델은 단 한 개의 RTX 3090 GPU에서 27시간 동안만 훈련하여 여러 최신(SOTA) 결과를 달성하였습니다. 구체적으로, 우리는 2D-LLMs에서 얻은 2D 사전 지식을 활용하여 3D 포인트 클라우드와 LLMs를 맞춤화하는 방법을 제안합니다. 이를 통해 2D와 3D 시각 정보 사이의 유사성을 활용할 수 있습니다. 또한, 단계적으로 모달리티 맞춤화를 수행하기 위한 새로운 네 단계 훈련 전략과 쿼리 전문가 혼합 모듈을 도입하여 특징들을 효율적으로 적응적으로 집계합니다. 더불어, LoRA와 Norm fine-tuning 등의 매개변수 효율적인 미세 조정 방법을 사용하여 학습 가능한 매개변수가 4780만 개로, 기존 방법보다 최대 260배 적습니다. 광범위한 실험 결과는 MiniGPT-3D가 훈련 비용이 현저히 저렴하면서도 3D 객체 분류 및 캡셔닝 작업에서 최신(SOTA) 성능을 달성함을 보여줍니다. 특히, ShapeLLM-13B가 8개의 A800 GPU에서 총 160시간의 훈련 비용이 드는 반면, MiniGPT-3D는 어려운 객체 캡셔닝 작업에서 GPT-4 평가 점수가 ShapeLLM-13B보다 8.12점 높아졌습니다. 우리는 처음으로 효율적인 3D-LLM에 대한 탐구를 진행하였으며, 이는 커뮤니티에게 새로운 통찰력을 제공합니다. 코드와 가중치는 https://github.com/TangYuan96/MiniGPT-3D 에서 확인 가능합니다.