HyperAI超神経

SwS: 自己の弱点を認識した問題合成手法による強化学習のLLM推論向上

Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu
公開日: 6/16/2025
SwS: 自己の弱点を認識した問題合成手法による強化学習のLLM推論向上
要約

強化学習による検証可能な報酬(Reinforcement Learning with Verifiable Rewards: RLVR)は、数学問題解決などの複雑な推論タスクにおける大規模言語モデル(Large Language Models: LLMs)の学習に効果的であることが示されています。RLVRのスケーラビリティを実現するためには、正確で検証可能な解答を持つ高品質な問題セットが必須です。しかし、既存の蒸留指向型合成データセットでは、巧妙に作成された人間によるラベリングの数学問題や限られた検証可能な解答が不足しており、これにより強化学習(RL)での有効性が制限されています。さらに、ほとんどの問題生成戦略はモデルの能力を考慮せずに無差別に問題セットを拡張するため、有用な質問を生成する効率が低くなっています。この課題を解決するために、我々は自己認識に基づく弱点駆動型問題生成フレームワーク(Self-aware Weakness-driven problem Synthesis: SwS)を導入します。このフレームワークは、システム的にモデルの欠点を特定し、それらを利用して問題を増強します。具体的には、弱点をモデルが反復サンプリング中に一貫して学習できない質問として定義します。次に、これらの失敗事例から核心的な概念を取り出し、新しい問題を生成することで、モデルの弱い部分を強化し、その後の増強学習において弱点に焦点を当てて徐々に克服できるようにします。外部知識蒸留に依存せずに、当該フレームワークはモデルが自己認識によって弱点を見つけ出し対処することを可能とし、8つの主要な推論ベンチマークにおいて7Bおよび32Bモデルで平均10.0%と7.7%の性能向上を達成しています。