HyperAIHyperAI

Command Palette

Search for a command to run...

공간-SSRL: 자기지도 강화학습을 통한 공간 인지 향상

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

초록

공간 인식 능력은 대규모 시각-언어 모델(LVLM)의 여전한 약점으로 남아 있다. 기존의 감독 학습 미세조정(SFT) 및 최근의 검증 가능한 보상 기반 강화학습(RLVR) 파이프라인은 비용이 많이 드는 감독 신호, 전문 도구, 또는 제한된 환경에 의존하여 규모 확장에 한계가 있다. 본 연구에서는 일반적인 RGB 또는 RGB-D 이미지에서 직접 검증 가능한 신호를 추출하는 자기지도형 강화학습(Spatial-SSRL) 프레임워크를 제안한다. Spatial-SSRL은 2차원 및 3차원 공간 구조를 포착하는 다섯 가지 사전 과제를 자동으로 설정한다. 이 과제들은 조각 재정렬, 조각 뒤집기 인식, 조각 영역 보간, 영역 간 깊이 순서 결정, 상대적인 3차원 위치 예측이다. 이러한 과제들은 검증이 용이한 참값을 제공하며, 인간 또는 LVLM의 레이블링이 필요하지 않다. 제안한 과제를 기반으로 학습함으로써 공간 추론 능력이 크게 향상되면서도 일반적인 시각적 능력은 유지된다. 이미지 및 동영상 환경에서의 7개 공간 인식 벤치마크에서 Spatial-SSRL은 Qwen2.5-VL 기준 모델 대비 평균 정확도를 각각 3B 모델 기준 4.63%, 7B 모델 기준 3.89% 향상시켰다. 본 연구 결과는 단순하고 내재적인 감독 신호를 통해 대규모 RLVR가 가능하며, LVLM의 공간 지능을 강화할 수 있는 실용적인 길을 제시한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
공간-SSRL: 자기지도 강화학습을 통한 공간 인지 향상 | 문서 | HyperAI초신경