HyperAIHyperAI

Command Palette

Search for a command to run...

오미니스페이셜: 비전 언어 모델을 위한 종합적인 공간 인지 추론 벤치마크로의 도전

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

초록

공간적 추론은 인지심리학의 핵심 요소이며, 현재의 시각-언어 모델(VLM)의 발전에 있어 주요한 한계 요인으로 남아 있다. 기존의 연구들은 좌우 구분, 근거리/원거리 구분, 물체 수 카운팅과 같은 기본적인 공간 관계 이해 능력을 평가하거나 개선하기 위해 많은 노력을 기울여 왔지만, 이러한 과제들은 공간적 추론의 가장 기초적인 수준에 불과하다. 본 연구에서는 인지심리학에 기반한 포괄적이고 도전적인 공간적 추론 평가 기준인 OmniSpatial을 제안한다. OmniSpatial은 동적 추론, 복합적인 공간 논리, 공간적 상호작용, 관점 전환의 네 가지 주요 범주로 구성되며, 총 50개의 세부 하위 범주를 포함한다. 인터넷 데이터 크롤링과 철저한 수작업 주석을 통해 1,500개 이상의 질문-답변 쌍을 구축하였다. 광범위한 실험 결과에 따르면, 오픈소스 및 클로즈소스 VLM을 비롯해 기존의 추론 및 공간 이해 모델들 역시 종합적인 공간적 이해 능력에서 상당한 한계를 보이고 있음을 확인하였다. 또한 실패 사례를 심층 분석하고 향후 연구를 위한 가능성을 제시한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp