HyperAIHyperAI

Command Palette

Search for a command to run...

AceReason-Nemotron 1.1: SFT와 RL의 시너지를 통해 수학과 코드 추론 능력 향상

Zihan Liu Zhuolin Yang Yang Chen Chankyu Lee Mohammad Shoeybi Bryan Catanzaro Wei Ping

초록

본 연구에서는 감독된 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL) 사이의 시너지를 조사하여 강력한 추론 모델을 개발하는 데 중점을 두었습니다. 먼저, 두 가지 확장 전략을 통해 SFT 훈련 데이터를 큐레이팅하였습니다: 수집된 프롬프트(prompt) 수 증가와 각 프롬프트 당 생성된 응답(response) 수 증가입니다. 이 두 접근법 모두 추론 성능에 눈에 띄는 개선을 가져왔으며, 특히 프롬프트 수를 확장하는 방법이 더 큰 성과를 거두었습니다.다음으로, SFT와 RL 간의 시너지에 대한 다음 질문들을 탐구하였습니다: (i) 더 강력한 SFT 모델이 대규모 RL 훈련 후 일관되게 더 우수한 최종 성능을 보이는가? (ii) 주어진 SFT 초기화 상태에서 탐색(exploration)과 활용(exploitation)을 효과적으로 균형 잡기 위해 RL 훈련 중 적절한 샘플링 온도(sampling temperature)를 어떻게 결정할 수 있는가?연구 결과는 다음과 같습니다: (i) 효과적인 RL 훈련이 수행되는 경우, 특히 샘플링 온도를 신중하게 선택하여 온도 조정 엔트로피(temperature-adjusted entropy)를 약 0.3으로 유지할 때, 더 강력한 SFT 모델이 일관되게 더 우수한 최종 성능을 보이는 것으로 나타났습니다. (ii) 이 설정은 탐색과 활용 사이의 좋은 균형을 이루며, 초기 SFT 모델들 간의 성능 차이가 RL 과정 동안 크게 좁혀지는 것을 확인할 수 있었습니다.강력한 SFT 기반과 SFT 및 RL 간의 시너지 효과에 대한 통찰력을 활용하여, 우리의 AceReason-Nemotron-1.1 7B 모델은 AceReason-Nemotron-1.0보다 크게 우수하며, Qwen2.5-7B 기반 추론 모델들 중 어려운 수학 및 코드 벤치마크에서 새로운 최고 수준의 성능을 달성하였습니다. 이를 통해 우리의 후 훈련 레시피(post-training recipe)의 효과성을 입증하였습니다. 모델과 데이터는 다음과 같이 공개되었습니다: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
AceReason-Nemotron 1.1: SFT와 RL의 시너지를 통해 수학과 코드 추론 능력 향상 | 문서 | HyperAI초신경