Command Palette
Search for a command to run...
判別制約最適化フレームワーク(DisCO)
DisCOフレームワークは、2025年5月にテキサスA&M大学の研究チームによって提案され、関連する研究成果は論文「DisCO: 判別制約最適化による大規模推論モデルの強化NeurIPS 2025に選定されました。
DisCOフレームワークは、識別学習の原理に基づいています。識別学習とは、肯定的な回答のスコアを高め、否定的な回答のスコアを下げることで、LRMを強化するというものです。このフレームワークは、グループ相対ポリシー最適化(GRPO)とその派生手法に比べて大きな利点があります。
(i)識別的な目標を採用することにより、難易度バイアスは完全に排除されました。
(ii)非刈り込みスコアリング関数と制約付き最適化手法を使用することで、GRPOとその変種におけるエントロピー不安定性の問題が解決され、長く安定したトレーニングダイナミクスが得られます。
(iii) 高度な識別学習技術を統合して、トレーニング中に多数の質問で肯定的な回答よりも否定的な回答が多く生成される不均衡なデータの問題に対処できます。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.