Command Palette
Search for a command to run...
COOPER: 공간 지능에서 협업적 인식과 추론을 위한 통합 모델
COOPER: 공간 지능에서 협업적 인식과 추론을 위한 통합 모델
초록
시각적 공간적 추론은 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 객체의 속성과 공간적 관계를 이해할 수 있도록 하기 위해 핵심적인 역할을 하며, 현재의 모델들은 여전히 3D 인지 기반의 추론에서 어려움을 겪고 있다. 기존의 접근 방식은 일반적으로 RGB 입력에 깊이(depth) 및 세그멘테이션(segmentation)과 같은 보조 모달리티를 추가함으로써 인지 능력을 향상시키거나, 공간적 VQA(Vision Question Answering) 데이터셋에서 학습하고 강화 학습을 적용함으로써 추론 능력을 개선하는 방식으로, 두 측면을 별도로 다룬다. 본 연구에서는 통합적인 MLLM이 공간적 인지 능력을 내재적으로 향상시키고, 적응형 상호작용 추론을 통해 더 강력한 공간 지능을 발휘할 수 있는지 탐구한다. 우리는 깊이와 세그멘테이션을 보조 모달리티로 활용하며, 두 단계에 걸쳐 보조 모달리티 생성 능력과 적응형 상호작용 추론 능력을 습득하도록 훈련하는 통합형 MLLM인 COOPER(COoperative Perception and Reasoning)을 제안한다. COOPER는 공간적 추론 성능에서 평균 6.91%의 향상을 달성하면서도 일반적인 성능을 유지한다. 또한, 보조 모달리티 생성에만 특화된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 기록하며, 보조 모달리티 생성을 학습하는 것이 공간 지식을 내재화하고 공간 이해 능력을 강화하는 데 기여함을 시사한다.