Discord에서 논의하기

7달 전

이미지 이해

컴퓨터 비전

다중 작업 학습

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

초록

공간 인식 능력은 대규모 시각-언어 모델(LVLM)의 여전한 약점으로 남아 있다. 기존의 감독 학습 미세조정(SFT) 및 최근의 검증 가능한 보상 기반 강화학습(RLVR) 파이프라인은 비용이 많이 드는 감독 신호, 전문 도구, 또는 제한된 환경에 의존하여 규모 확장에 한계가 있다. 본 연구에서는 일반적인 RGB 또는 RGB-D 이미지에서 직접 검증 가능한 신호를 추출하는 자기지도형 강화학습(Spatial-SSRL) 프레임워크를 제안한다. Spatial-SSRL은 2차원 및 3차원 공간 구조를 포착하는 다섯 가지 사전 과제를 자동으로 설정한다. 이 과제들은 조각 재정렬, 조각 뒤집기 인식, 조각 영역 보간, 영역 간 깊이 순서 결정, 상대적인 3차원 위치 예측이다. 이러한 과제들은 검증이 용이한 참값을 제공하며, 인간 또는 LVLM의 레이블링이 필요하지 않다. 제안한 과제를 기반으로 학습함으로써 공간 추론 능력이 크게 향상되면서도 일반적인 시각적 능력은 유지된다. 이미지 및 동영상 환경에서의 7개 공간 인식 벤치마크에서 Spatial-SSRL은 Qwen2.5-VL 기준 모델 대비 평균 정확도를 각각 3B 모델 기준 4.63%, 7B 모델 기준 3.89% 향상시켰다. 본 연구 결과는 단순하고 내재적인 감독 신호를 통해 대규모 RLVR가 가능하며, LVLM의 공간 지능을 강화할 수 있는 실용적인 길을 제시한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

7달 전

이미지 이해

컴퓨터 비전

다중 작업 학습

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

초록

공간 인식 능력은 대규모 시각-언어 모델(LVLM)의 여전한 약점으로 남아 있다. 기존의 감독 학습 미세조정(SFT) 및 최근의 검증 가능한 보상 기반 강화학습(RLVR) 파이프라인은 비용이 많이 드는 감독 신호, 전문 도구, 또는 제한된 환경에 의존하여 규모 확장에 한계가 있다. 본 연구에서는 일반적인 RGB 또는 RGB-D 이미지에서 직접 검증 가능한 신호를 추출하는 자기지도형 강화학습(Spatial-SSRL) 프레임워크를 제안한다. Spatial-SSRL은 2차원 및 3차원 공간 구조를 포착하는 다섯 가지 사전 과제를 자동으로 설정한다. 이 과제들은 조각 재정렬, 조각 뒤집기 인식, 조각 영역 보간, 영역 간 깊이 순서 결정, 상대적인 3차원 위치 예측이다. 이러한 과제들은 검증이 용이한 참값을 제공하며, 인간 또는 LVLM의 레이블링이 필요하지 않다. 제안한 과제를 기반으로 학습함으로써 공간 추론 능력이 크게 향상되면서도 일반적인 시각적 능력은 유지된다. 이미지 및 동영상 환경에서의 7개 공간 인식 벤치마크에서 Spatial-SSRL은 Qwen2.5-VL 기준 모델 대비 평균 정확도를 각각 3B 모델 기준 4.63%, 7B 모델 기준 3.89% 향상시켰다. 본 연구 결과는 단순하고 내재적인 감독 신호를 통해 대규모 RLVR가 가능하며, LVLM의 공간 지능을 강화할 수 있는 실용적인 길을 제시한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

공간-SSRL: 자기지도 강화학습을 통한 공간 인지 향상 | 문서 | HyperAI초신경