Command Palette
Search for a command to run...

초록
시각적 공간 추론(Visual Spatial Reasoning, VSR)은 인간의 핵심 인지 능력이며, 신체적 지능(embodied intelligence)과 자율 시스템의 발전을 위한 필수 조건이다. 최근 시각-언어 모델(Vision-Language Models, VLMs)의 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성으로 인해 인간 수준의 VSR 달성은 여전히 매우 도전적인 과제이다. 본 논문에서는 VLMs 내 VSR에 대한 체계적인 탐구를 제시하며, 입력 모달리티, 모델 아키텍처, 훈련 전략, 추론 메커니즘 등 다양한 측면에서 기존 방법론을 종합적으로 검토한다. 또한 공간 지능을 세 가지 수준의 능력—기본적 인지, 공간 이해, 공간 계획—으로 분류하고, 23개의 작업 설정에서 약 20개의 오픈소스 데이터셋을 포함하는 공간 지능 평가 기준인 SIBench를 구축하였다. 최신 VLMs를 활용한 실험 결과, 인지와 추론 사이에 뚜렷한 격차가 존재함을 확인할 수 있었으며, 모델들은 기본적인 인지 작업에서는 성능을 보였으나, 특히 수치 추정, 다중 시점 추론, 시간적 동역학, 공간 상상력과 같은 이해 및 계획 관련 작업에서는 지속적으로 부진한 성능을 보였다. 이러한 결과는 공간 지능 달성에 여전히 큰 도전 과제가 존재함을 시사하며, 향후 연구를 촉진하기 위한 체계적인 로드맵과 포괄적인 평가 기준을 제공한다. 본 연구와 관련된 자료는 다음 링크에서 접근 가능하다: https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.