단계힌트: 다중 수준 단계별 힌트가 강화학습을 통해 추론을 향상시킴

검증 가능한 보상 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대형 언어 모델(Large Language Models, LLMs)의 복잡한 추론 능력을 향상시키는 유망한 접근 방식입니다. 그러나 현재의 RLVR 방법들은 두 가지 주요 과제에 직면해 있습니다. 첫 번째는 근접 실패 보상 문제(near-miss reward problem)로, 작은 실수가 그렇지 않았다면 올바른 추론 과정을 무효화하여 훈련 효율성을 크게 저하시키는 문제입니다. 두 번째는 탐색 정체 문제(exploration stagnation)로, 모델들이 자신의 "안전 영역" 내에서 해결책에 집중하는 경향이 있어 더 효과적인 대안을 탐색할 동기가 부족합니다. 이러한 과제를 해결하기 위해, 우리는 StepHint라는 새로운 RLVR 알고리즘을 제안합니다. StepHint는 다단계 단계별 힌트를 활용하여 모델이 해결 공간을 더 효과적으로 탐색하도록 돕습니다. StepHint는 강력한 모델로부터 유효한 추론 사슬을 생성하고, 이 사슬들을 우리의 제안된 적응적 분할 방법을 사용하여 추론 단계로 나눕니다. 초기 몇 단계는 힌트로 사용되며, 동시에 각각 다른 단계 수를 포함하는 다수준 힌트(multi-level hints)가 모델에 제공됩니다. 이러한 접근 방식은 모델의 탐색을 유망한 해결 부분 공간으로 안내하면서도 독립적인 탐색의 유연성을 유지시킵니다. 힌트 제공을 통해 StepHint는 근접 실패 보상 문제를 완화하여 훈련 효율성을 개선합니다. 또한 외부 추론 경로는 모델이 더 우수한 추론 능력을 발달시키도록 도와, "안전 영역"을 벗어나고 탐색 정체 문제를 완화할 수 있게 합니다. StepHint는 6개의 수학적 벤치마크에서 경쟁력 있는 RLVR 개선 방법들을 능가하며, 도메인 외 벤치마크에서도 기존 기준모델(baselines)보다 우수한 일반화 능력을 입증하였습니다.