Command Palette

Search for a command to run...

16일 전

시각적 공간적 조정

시각적 공간적 조정

초록

시각 입력으로부터 공간적 관계를 포착하는 것은 인간과 유사한 일반 지능의 핵심 요소이다. 이전 연구들은 추가적인 전문 인코더를 도입함으로써 시각-언어 모델(Vision-Language Models, VLMs)의 공간 인식 능력을 향상시키려 했으나, 이는 추가적인 계산 부담을 초래할 뿐만 아니라 일반화 능력에 부정적인 영향을 미치는 경우가 많았다. 일반 아키텍처 내에서 공간 능력을 강화하기 위해, 본 연구에서는 인간과 유사한 시각-공간 능력을 갖춘 VLMs를 육성할 수 있는 종합적인 프레임워크인 시각적 공간 조정(Visual Spatial Tuning, VST)을 제안한다. 이는 공간 인지에서부터 공간 추론에 이르기까지의 능력을 포함한다. 먼저, 단일 시각, 다중 이미지, 영상 등 다양한 형태에 걸쳐 19개의 스킬을 아우르는 총 410만 개의 샘플로 구성된 대규모 데이터셋인 VST-P를 구축함으로써 VLMs의 공간 인지 능력을 향상시키는 시도를 한다. 그 후, 공간에서의 추론을 유도하는 13.5만 개의 샘플로 구성된 정제된 데이터셋 VST-R을 제시한다. 특히, 점진적 학습 파이프라인을 도입하여, 먼저 지도적 미세조정을 통해 기초적인 공간 지식을 구축한 후, 강화 학습을 통해 공간 추론 능력을 추가로 향상시킨다. 일반화 능력에 부정적 영향을 주지 않으면서도, 제안된 VST는 MMSI-Bench에서 34.8%, VSIBench에서 61.2%의 우수한 성능을 지속적으로 달성하며, 여러 공간 기준 평가에서 최고 수준의 결과를 보였다. 결과적으로, 제안된 공간 조정 패러다임을 통해 시각-언어-행동(Vision-Language-Action) 모델의 성능이 크게 향상됨을 확인할 수 있었으며, 이는 보다 물리적 기반을 갖춘 인공지능의 실현을 위한 길을 열어주었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
시각적 공간적 조정 | 연구 논문 | HyperAI초신경