Command Palette

Search for a command to run...

한 달 전

VLMs는 시각적 공간 지능에서 얼마나 멀어졌는가? 벤치마크 기반의 관점

VLMs는 시각적 공간 지능에서 얼마나 멀어졌는가? 벤치마크 기반의 관점

초록

시각적 공간 추론(Visual Spatial Reasoning, VSR)은 인간의 핵심 인지 능력이며, 신체적 지능(embodied intelligence)과 자율 시스템의 발전을 위한 필수 조건이다. 최근 시각-언어 모델(Vision-Language Models, VLMs)의 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성으로 인해 인간 수준의 VSR 달성은 여전히 매우 도전적인 과제이다. 본 논문에서는 VLMs 내 VSR에 대한 체계적인 탐구를 제시하며, 입력 모달리티, 모델 아키텍처, 훈련 전략, 추론 메커니즘 등 다양한 측면에서 기존 방법론을 종합적으로 검토한다. 또한 공간 지능을 세 가지 수준의 능력—기본적 인지, 공간 이해, 공간 계획—으로 분류하고, 23개의 작업 설정에서 약 20개의 오픈소스 데이터셋을 포함하는 공간 지능 평가 기준인 SIBench를 구축하였다. 최신 VLMs를 활용한 실험 결과, 인지와 추론 사이에 뚜렷한 격차가 존재함을 확인할 수 있었으며, 모델들은 기본적인 인지 작업에서는 성능을 보였으나, 특히 수치 추정, 다중 시점 추론, 시간적 동역학, 공간 상상력과 같은 이해 및 계획 관련 작업에서는 지속적으로 부진한 성능을 보였다. 이러한 결과는 공간 지능 달성에 여전히 큰 도전 과제가 존재함을 시사하며, 향후 연구를 촉진하기 위한 체계적인 로드맵과 포괄적인 평가 기준을 제공한다. 본 연구와 관련된 자료는 다음 링크에서 접근 가능하다: https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VLMs는 시각적 공간 지능에서 얼마나 멀어졌는가? 벤치마크 기반의 관점 | 연구 논문 | HyperAI초신경