HyperAIHyperAI

Command Palette

Search for a command to run...

COOPER: 공간 지능에서 협업적 인식과 추론을 위한 통합 모델

초록

시각적 공간적 추론은 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 객체의 속성과 공간적 관계를 이해할 수 있도록 하기 위해 핵심적인 역할을 하며, 현재의 모델들은 여전히 3D 인지 기반의 추론에서 어려움을 겪고 있다. 기존의 접근 방식은 일반적으로 RGB 입력에 깊이(depth) 및 세그멘테이션(segmentation)과 같은 보조 모달리티를 추가함으로써 인지 능력을 향상시키거나, 공간적 VQA(Vision Question Answering) 데이터셋에서 학습하고 강화 학습을 적용함으로써 추론 능력을 개선하는 방식으로, 두 측면을 별도로 다룬다. 본 연구에서는 통합적인 MLLM이 공간적 인지 능력을 내재적으로 향상시키고, 적응형 상호작용 추론을 통해 더 강력한 공간 지능을 발휘할 수 있는지 탐구한다. 우리는 깊이와 세그멘테이션을 보조 모달리티로 활용하며, 두 단계에 걸쳐 보조 모달리티 생성 능력과 적응형 상호작용 추론 능력을 습득하도록 훈련하는 통합형 MLLM인 COOPER(COoperative Perception and Reasoning)을 제안한다. COOPER는 공간적 추론 성능에서 평균 6.91%의 향상을 달성하면서도 일반적인 성능을 유지한다. 또한, 보조 모달리티 생성에만 특화된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 기록하며, 보조 모달리티 생성을 학습하는 것이 공간 지식을 내재화하고 공간 이해 능력을 강화하는 데 기여함을 시사한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
COOPER: 공간 지능에서 협업적 인식과 추론을 위한 통합 모델 | 문서 | HyperAI초신경