Command Palette
Search for a command to run...
Yinjie Wang Ling Yang Bowen Li Ye Tian Ke Shen Mengdi Wang

要約
我々は、推論過程における望ましい遷移経路を事後学習に組み込むことで、異なるアーキテクチャに普遍的に適用可能な、軌道認識型強化学習フレームワークであるTraceRLを提案する。拡散モデルに基づく価値関数モデルを用いることで学習の安定性を向上させ、複雑な数学およびコード生成タスクにおいて、より優れた推論性能を実現した。さらに、特定ブロックに特化したモデルをより大きなブロックに適応させる応用も可能であり、サンプリングの柔軟性を向上させた。TraceRLを活用して、最先端の拡散言語モデル群であるTraDoシリーズを構築した。7B規模の自己回帰型モデル(ARモデル)よりも小さいにもかかわらず、TraDo-4B-Instructは複雑な数学推論タスクにおいて一貫して優れた性能を示した。また、TraDo-8B-Instructは、数学推論ベンチマークにおいてQwen2.5-7B-Instructに対して6.1%、Llama3.1-8B-Instructに対して51.3%の相対的な精度向上を達成した。さらに、カリキュラム学習を導入することで、初めての長文・複数ステップ推論(long-CoT)拡散言語モデルを構築し、MATH500ベンチマークにおいてQwen2.5-7B-Instructを18.1%の相対的精度向上で上回った。再現性の高い研究および実用応用を促進するため、多様なアーキテクチャにわたる拡散言語モデルの構築・学習・デプロイを支援する包括的なオープンソースフレームワークを公開する。本フレームワークは、推論および強化学習の両方で高速化されたKVキャッシュ技術と推論エンジンを統合しており、数学・コード・一般タスク向けのさまざまな教師あり微調整および強化学習手法の実装も含まれている。コードとモデル:https://github.com/Gen-Verse/dLLM-RL