초록

본 연구에서는 감독된 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL) 사이의 시너지를 조사하여 강력한 추론 모델을 개발하는 데 중점을 두었습니다. 먼저, 두 가지 확장 전략을 통해 SFT 훈련 데이터를 큐레이팅하였습니다: 수집된 프롬프트(prompt) 수 증가와 각 프롬프트 당 생성된 응답(response) 수 증가입니다. 이 두 접근법 모두 추론 성능에 눈에 띄는 개선을 가져왔으며, 특히 프롬프트 수를 확장하는 방법이 더 큰 성과를 거두었습니다.다음으로, SFT와 RL 간의 시너지에 대한 다음 질문들을 탐구하였습니다: (i) 더 강력한 SFT 모델이 대규모 RL 훈련 후 일관되게 더 우수한 최종 성능을 보이는가? (ii) 주어진 SFT 초기화 상태에서 탐색(exploration)과 활용(exploitation)을 효과적으로 균형 잡기 위해 RL 훈련 중 적절한 샘플링 온도(sampling temperature)를 어떻게 결정할 수 있는가?연구 결과는 다음과 같습니다: (i) 효과적인 RL 훈련이 수행되는 경우, 특히 샘플링 온도를 신중하게 선택하여 온도 조정 엔트로피(temperature-adjusted entropy)를 약 0.3으로 유지할 때, 더 강력한 SFT 모델이 일관되게 더 우수한 최종 성능을 보이는 것으로 나타났습니다. (ii) 이 설정은 탐색과 활용 사이의 좋은 균형을 이루며, 초기 SFT 모델들 간의 성능 차이가 RL 과정 동안 크게 좁혀지는 것을 확인할 수 있었습니다.강력한 SFT 기반과 SFT 및 RL 간의 시너지 효과에 대한 통찰력을 활용하여, 우리의 AceReason-Nemotron-1.1 7B 모델은 AceReason-Nemotron-1.0보다 크게 우수하며, Qwen2.5-7B 기반 추론 모델들 중 어려운 수학 및 코드 벤치마크에서 새로운 최고 수준의 성능을 달성하였습니다. 이를 통해 우리의 후 훈련 레시피(post-training recipe)의 효과성을 입증하였습니다. 모델과 데이터는 다음과 같이 공개되었습니다: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B

소스 PDF 코드 보기