HyperAIHyperAI

Command Palette

Search for a command to run...

보이지 않는 줄: 왜 RLVR는 자신의 기원을 벗어날 수 없는가

Fang Wu Weihao Xuan Ximing Lu Zaid Harchaoui Yejin Choi

초록

최근 대규모 추론 모델의 발전은 AI의 능력을 향상시키기 위한 강화학습을 통한 검증 가능한 보상(RLVR) 방법이 복잡한 논리적 작업을 해결하는 데 있어 전망 있는 접근법이라는 점을 강조하고 있다. 그러나 RLVR가 모델의 추론 범위를 진정으로 확장하는지, 아니면 이미 기본 모델이 알고 있는 높은 보상을 주는 출력을 강화하여 정확도를 향상시키는 것인지 여부는 여전히 불확실하다. 본 연구는 RLVR의 잠재적 한계에 대한 새로운 이론적 및 실증적 통찰을 제공하는 이론적이고 경험적인 조사이다. 첫째, 우리는 RLVR가 기본 모델의 지원 범위에 제한되어 있으며, 초기 확률이 0인 해법을 샘플링할 수 없는 점에서 작동한다고 제시한다. 이는 모델이 기존의 해법을 재가중하는 보수적인 메커니즘으로, 완전히 새로운 해법을 탐색하는 데 제약을 줄 수 있다. 또한, 우리는 엔트로피-보상의 트레이드오프를 식별하였다: RLVR는 정확도를 안정적으로 향상시키지만, 점차적으로 탐색 범위를 축소하고, 미대표적인 해법 중에서도 정확한 해법을 간과할 수 있다. 광범위한 실증 실험 결과는 RLVR가 일관되게 pass@1을 개선하지만, 더 큰 샘플링 예산 하에서는 경험적 지원의 축소가 확장보다 일반적으로 더 크며, 기본 모델이 이전에 접근 가능했던 정답을 회복하지 못함을 입증하였다. 흥미롭게도, RLVR가 때때로 토큰 수준의 엔트로피를 증가시켜 생성 단계에서의 불확실성을 높이지만, 답 수준의 엔트로피는 감소함을 관찰하였다. 이는 이러한 불확실한 경로들이 결국 더 적은 수의 다른 답에 수렴함을 시사한다. 이러한 연구 결과는 추론 범위를 확장하는 데 있어 RLVR의 잠재적 한계를 드러내며, 이 허수아비를 끊기 위해서는 명시적인 탐색 메커니즘 또는 미대표적인 해법 영역에 확률 질량을 제공하는 하이브리드 전략과 같은 미래 알고리즘 혁신이 필요할 수 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp