Command Palette
Search for a command to run...
Shouwei Ruan Liyuan Wang Caixin Kang Qihui Zhu Songming Liu Xingxing Wei Hang Su

초록
공간 인지 능력은 공간에 대한 내부 모델을 구축함으로써 적응형의 목표 지향적 행동을 가능하게 한다. 강건한 생물학적 시스템은 공간 지식을 세 가지 상호 연결된 형태로 통합한다. 즉, 두드러진 자극을 위한 지표점, 이동 경로를 위한 경로 지식, 그리고 지도와 유사한 표현을 위한 시점 외 지식이다. 최근 다중 모달 대규모 언어 모델(MLLM)의 발전은 몸을 가진 에이전트에서 시각-언어 추론을 가능하게 하였지만, 이러한 연구들은 구조화된 공간 기억을 결여하고 있으며, 반응적으로 작동함으로써 복잡한 실제 환경에서의 일반화 및 적응 능력을 제한하고 있다. 본 연구에서는 몸을 가진 에이전트에서 구조화된 공간 기억을 구축하고 활용하기 위한 통합적 프레임워크인 '생체 기반 공간 인지 기반 탐색(BSC-Nav)'을 제안한다. BSC-Nav는 자기 중심적 경로와 맥락 정보로부터 외부 기준 공간 인지 지도를 구축하며, 의미적 목표에 부합하는 공간 지식을 동적으로 검색한다. 강력한 MLLM과 통합된 BSC-Nav는 다양한 탐색 과제에서 최고 수준의 효율성과 효과성을 달성하고, 뛰어난 제로샷 일반화 능력을 보이며, 실제 물리 세계에서 다양한 몸을 가진 행동을 지원한다. 이는 일반 목적의 공간 지능을 향한 확장 가능하고 생물학적으로 타당한 길을 제시한다.