Command Palette
Search for a command to run...
Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

초록
최근 강화학습(RL) 기법들은 대규모 언어 모델(LLM)의 계획 능력을 크게 향상시켰으나, 이러한 기법의 효과성에 대한 이론적 근거는 여전히 명확하지 않다. 본 연구에서는 정책 그래디언트(PG) 및 Q-학습 방법을 중심으로, 다루기 쉬운 그래프 기반 추상화를 통해 RL의 장점과 한계를 탐구한다. 이론적 분석 결과, 지도 미세조정(SFT)은 공존 기반의 허위 해(스파리어스 솔루션)를 유발할 수 있으나, RL은 주로 탐색을 통해 정확한 계획을 달성함을 밝혀내었으며, 이는 탐색이 더 나은 일반화를 가능하게 한다는 점을 강조한다. 그러나 동시에 PG가 훈련 중 출력 다양성이 감소하는 다채널 붕괴(다양성 붕괴) 현상을 겪는다는 점을 보여주며, 정확도가 완벽해진 후에도 이 현상이 지속됨을 확인하였다. 반면 Q-학습은 두 가지 핵심적 장점을 제공한다. 첫째, 비정책 기반 학습(off-policy learning)이 가능하며, 둘째, 수렴 시 출력 다양성을 유지할 수 있다. 또한, Q-학습에서 보상 조작(reward hacking)을 방지하기 위해 보상 설계를 신중하게 해야 함을 입증하였다. 마지막으로, 실제 계획 평가 기준인 Blocksworld 벤치마크에 본 연구의 프레임워크를 적용한 결과, 이러한 현상들이 실제 환경에서도 나타남을 확인하였다.