HyperAI초신경
Back to Headlines

상하이 교통대 연구팀, OctoThinker로 LLM 강화학습 개발 성공

4일 전

상하이 교통대학교 연구진은 강화 학습을 통해 확장 가능한 대형 언어 모델(LLM) 개발을 위한 OctoThinker를 제안했습니다. 이 연구는 체인 오브 씽킹(Chain-of-Thought, CoT) 프롬프팅과 대규모 강화 학습(RL)의 결합으로 복잡한 추론 작업에서 우수한 성능을 보이는 LLM의 진행 상황에 주목합니다. 특히, DeepSeek-R1-Zero와 같은 모델은 직접 RL을 적용하여 강력한 추론 능력을 보여주었으며, SimpleRL과 Open-ReasonerZero는 Qwen 시리즈와 같은 작은 모델에서도 개선 효과를 나타냈습니다. 그러나 다양한 기반 모델 가족들에서 일관된 성공을 이루는 것은 여전히 도전적인 문제입니다. 특히, Llama 시리즈와 같은 모델에 R1-Zero 스타일의 훈련을 적용하는 것이 어려운 상황이 발생해, 이를 통해 기반 모델들이 강화 학습 중 어떤 요인이 서로 다른 행동을 하게 되는지에 대한 근본적인 질문이 제기되었습니다. 강화 학습의 Llama 모델 확장 제한 대규모 RL은 OpenAI의 o1, o3와 DeepSeek의 R1이 경쟁 수준의 수학 문제에서 뛰어난 성능을 보임으로써, 100억 파라미터 미만의 작은 모델에서도 RL을 탐구하는 동기를 제공했습니다. 그러나 이러한 성과는 Qwen 모델 가족에 한정되어 있으며, Llama와 같은 모델 가족에서 결과를 재현하는 것은 어려웠습니다. 사전 훈련 파이프라인의 투명성 부족은 사전 훈련이 RL 확장에 어떻게 영향을 미치는지를 이해하기 어렵게 만들었습니다. 비전통적인 연구들은 Qwen에서는 원샷 프롬프팅(one-shot prompting)이 추론 능력을 향상시키지만, Llama에서는 거의 혜택을 가져오지 않는다는 것을 발견했습니다. OpenWebMath, MathPile, InfiMM-Web-Math, FineMath 같은 프로젝트를 통해 고품질 수학 사전 훈련 데이터 집합을 큐레이팅的努力仍在进行中,但这些项目在规模上仍限于100亿个标记以下。 中間訓練探索:穩定-然後-衰減策略 上交大研究人員探討了中間訓練策略如何塑造RL動力學,重點研究Qwen和Llama模型。研究提出了幾個見解:首先,高質量的數學語料庫如MegaMath-Web-Pro可以提升基底模型和RL結果。其次,使用QA風格的數據,特別是長CoT推理的數據,進一步增強了RL結果。第三,長CoT引入了冗長性和不穩定性。最後,中間訓練中的擴展導致了更強的下游RL性能。研究人員介紹了一種兩階段的中間訓練策略,稱為穩定-然後-衰減(Stable-then-Decay),其中基底模型首先在2000億個令牌上進行訓練,然後在三個CoT專注分支上再進行200億個令牌的訓練,最終生成了具有強RL兼容性的OctoThinker模型。 RL構造和基準評估 研究人員使用MATH8K數據集作為RL訓練的提示。配置包括全局訓練批次大小為128,每個查詢16次回應,PPO小批次大小為64,在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進行實驗。評估時,基底語言模型使用少樣本提示(few-shot prompting),而RL微調模型則在指標任務中使用零樣本提示(zero-shot prompting),包括GSM8K、MATH500、OlympiadBench和AMC23。在RL訓練過程中,Qwen模型的回應長度逐漸增加,但仍保持合理,而Llama模型的平均回應長度異常上升至4,096個令牌。評估還顯示,RL微調的Qwen2.5-3B在各個基準測試中均有所改善,而Llama-3.2-3B的改進幅度較小。 OctoThinker在RL兼容性方面超越Llama 每個OctoThinker分支在13個數學基準測試中都比原始Llama基底模型表現出10%-20%的改進,並且在所有尺寸上的穩定階段模型中表現一致。OctoThinker-Zero系列在RL擴展期間展示了多樣化的思考行為,尤其是OctoThinker-Long變體表現強勁。當在RL訓練中比較三種3B規模的基底模型時,OctoThinker-Long-3B在性能上超越了原始Llama-3.2-3B模型,并达到了与以强推理能力和广泛预训练著称的Qwen2.5-3B相同的表现水平。混合分支和短分支的性能略低,尤其是在具有挑战性的基准测试中。 結論與未來工作:朝向RL準備就緒的基礎模型 本研究探討了為何像Llama和Qwen這樣的基底模型在RL推理過程中表現出不同行為,表明中間訓練在RL可擴展性中起著重要作用。兩階段中間訓練策略將Llama轉變為了更適合RL的基础模型,从而生成了OctoThinker模型。未来的研究方向包括:检查论文、Hugging Face页面和GitHub页面。所有对这项研究的赞誉都归功于该项目的研究人员。此外,欢迎关注我们在Twitter上的动态,不要忘记加入我们的100,000+ ML Reddit社区并订阅我们的通讯。 산업 전문가들은 OctoThinker가 Llama 모델의 강화 학습 성능을 크게 개선함으로써, 다양한 기반 모델에서 RL을 활용할 수 있는 가능성을 열었다고 평가하고 있습니다. 상하이 교통대학교 연구팀의 이 연구는 LLM 개발 분야에 중요한 진전을 이루었으며, 앞으로의 연구 방향을 제시하였습니다. OctoThinker는 Hugging Face와 GitHub 페이지에서 공개되어 있어, 해당 연구에 관심 있는 많은 사람들이 접근할 수 있습니다. 연구팀은 Twitter, ML Reddit, 그리고 뉴스레터를 통해 지속적으로 연구 결과를 공유할 예정입니다.

Related Links