Command Palette

Search for a command to run...

8일 전

RewardMap: 미세한 시각적 추론에서 희소 보상 문제에 다가가기 위한 다단계 강화 학습을 통한 접근

Sicheng Feng Kaiwen Tuo Song Wang Lingdong Kong Jianke Zhu Huan Wang

RewardMap: 미세한 시각적 추론에서 희소 보상 문제에 다가가기 위한 다단계 강화 학습을 통한 접근

초록

미세한 분류 수준의 시각적 추론은 다모달 대규모 언어 모델(MLLM)에게 여전히 핵심적인 도전 과제로 남아 있다. 최근 제안된 ReasonMap은 고도로 발전한 MLLM들도 통행 지도와 같이 구조적이고 정보가 풍부한 환경에서 공간적 추론 능력에 어려움을 겪고 있음을 보여줌으로써 이 격차를 부각시켰다. 이는 명확한 실용적 및 과학적 중요성을 지닌 과제이다. 그러나 이러한 과제에 대해 표준 강화학습(RL)은 보상 신호의 희박성과 안정되지 않은 최적화 문제로 인해 제약을 받는다. 이를 해결하기 위해 먼저, 시각 질문 응답(VQA) 과제를 통해 밀도 높은 보상을 제공하는 ReasonMap-Plus라는 확장된 데이터셋을 구축하였다. 이를 통해 미세한 시각 이해 능력의 효과적인 쿨스타트 학습이 가능해졌다. 다음으로, MLLM의 시각 이해 능력과 추론 능력을 동시에 향상시키기 위한 다단계 강화학습 프레임워크인 RewardMap을 제안한다. RewardMap은 두 가지 핵심 설계를 포함한다. 첫째, 난이도 인지 보상 설계를 도입하여 세부 정보에 대한 보상 요소를 포함함으로써, 보상의 희박성 문제를 직접 해결하고 더 풍부한 지도 정보를 제공한다. 둘째, 단순한 인지 과제에서 복잡한 추론 과제로의 훈련을 부트스트랩하는 다단계 RL 전략을 제안함으로써, 기존의 지도 미세조정(SFT)보다 더 효과적인 쿨스타트 전략을 제공한다. ReasonMap과 ReasonMap-Plus에 대한 실험 결과, RewardMap의 각 구성 요소가 일관된 성능 향상에 기여함을 확인하였으며, 이들의 조합이 최고의 성능을 달성함을 입증하였다. 더불어 RewardMap을 사용해 훈련된 모델은 통행 지도를 초월한 공간적 추론, 미세한 분류 수준의 시각적 추론, 일반적인 과제를 포함한 6개의 벤치마크에서 평균 3.47%의 성능 향상을 기록하며, 시각 이해 및 추론 능력의 전반적인 향상이 확인되었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
RewardMap: 미세한 시각적 추론에서 희소 보상 문제에 다가가기 위한 다단계 강화 학습을 통한 접근 | 연구 논문 | HyperAI초신경