HyperAI초신경

등산은 정상보다 깊은 지혜를 새긴다: 추론 학습에서의 시끄러운 보상에 관하여

Lv, Ang ; Xie, Ruobing ; Sun, Xingwu ; Kang, Zhanhui ; Yan, Rui
발행일: 6/1/2025
등산은 정상보다 깊은 지혜를 새긴다: 추론 학습에서의 시끄러운 보상에 관하여
초록

최근의 연구에서는 강화학습(RL)을 통해 후 훈련된 대형 언어 모델(LLM)이 정확하게 검증되고 보상될 수 있는 수학 문제 해결과 같은 작업에 주로 초점을 맞추고 있습니다. 반면, 우리의 연구는 실제 세계 시나리오에서 LLM의 후 훈련을 위해 보상 모델을 사용할 때 더 실용적인 고려 사항인 보상 노이즈(reward noise)의 영향을 조사합니다. 우리는 LLM이 상당한 보상 노이즈에 대해 강한 견고성을 보임을 발견했습니다. 예를 들어, 수학 작업에서 보상 함수의 출력 결과를 수동으로 40% 뒤집더라도 Qwen-2.5-7B 모델은 빠른 수렴을 이루며, 정확도가 5%에서 72%로 향상되었습니다. 이는 노이즈 없는 보상을 사용하여 훈련된 모델이 달성한 75%의 정확도와 비교됩니다. 놀랍게도, 답변의 정확성을 검증하지 않고 핵심 추론 문구(key reasoning phrases)인 "먼저, 나는" 등의 등장 여부만으로 보상을 제공하는 추론 패턴 보상(reasoning pattern reward, RPR) 방식을 사용했을 때, 모델은 엄격한 정답 검증과 정확한 보상을 사용하여 훈련된 모델과 유사한 최고 하류 성능(70% 이상의 정확도, Qwen-2.5-7B 기준)을 달성했습니다. 추론 과정의 중요성이 최종 결과보다 크다는 점을 인식하고, 우리는 RPR을 노이지 있는 보상 모델과 결합했습니다. RPR은 노이지 있는 보상 모델의 교정에 도움을 주어 잠재적인 거짓 음성을 완화하고 LLM의 개방형 작업 성능을 향상시켰습니다. 이러한 연구 결과는 사전 훈련 단계에서 모델의 기초 능력을 개선하는 것의 중요성을 제시하며, 후 훈련 기술 발전에 대한 통찰력을 제공합니다. 우리의 코드와 스크립트는 https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason에서 확인할 수 있습니다.