HyperAI초신경
9일 전

보이지 않는 줄: 왜 RLVR는 자신의 기원을 벗어날 수 없는가

Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
보이지 않는 줄: 왜 RLVR는 자신의 기원을 벗어날 수 없는가
초록

최근 대규모 추론 모델의 발전은 AI의 능력을 향상시키기 위한 강화학습을 통한 검증 가능한 보상(RLVR) 방법이 복잡한 논리적 작업을 해결하는 데 있어 전망 있는 접근법이라는 점을 강조하고 있다. 그러나 RLVR가 모델의 추론 범위를 진정으로 확장하는지, 아니면 이미 기본 모델이 알고 있는 높은 보상을 주는 출력을 강화하여 정확도를 향상시키는 것인지 여부는 여전히 불확실하다. 본 연구는 RLVR의 잠재적 한계에 대한 새로운 이론적 및 실증적 통찰을 제공하는 이론적이고 경험적인 조사이다. 첫째, 우리는 RLVR가 기본 모델의 지원 범위에 제한되어 있으며, 초기 확률이 0인 해법을 샘플링할 수 없는 점에서 작동한다고 제시한다. 이는 모델이 기존의 해법을 재가중하는 보수적인 메커니즘으로, 완전히 새로운 해법을 탐색하는 데 제약을 줄 수 있다. 또한, 우리는 엔트로피-보상의 트레이드오프를 식별하였다: RLVR는 정확도를 안정적으로 향상시키지만, 점차적으로 탐색 범위를 축소하고, 미대표적인 해법 중에서도 정확한 해법을 간과할 수 있다. 광범위한 실증 실험 결과는 RLVR가 일관되게 pass@1을 개선하지만, 더 큰 샘플링 예산 하에서는 경험적 지원의 축소가 확장보다 일반적으로 더 크며, 기본 모델이 이전에 접근 가능했던 정답을 회복하지 못함을 입증하였다. 흥미롭게도, RLVR가 때때로 토큰 수준의 엔트로피를 증가시켜 생성 단계에서의 불확실성을 높이지만, 답 수준의 엔트로피는 감소함을 관찰하였다. 이는 이러한 불확실한 경로들이 결국 더 적은 수의 다른 답에 수렴함을 시사한다. 이러한 연구 결과는 추론 범위를 확장하는 데 있어 RLVR의 잠재적 한계를 드러내며, 이 허수아비를 끊기 위해서는 명시적인 탐색 메커니즘 또는 미대표적인 해법 영역에 확률 질량을 제공하는 하이브리드 전략과 같은 미래 알고리즘 혁신이 필요할 수 있다.