HyperAIHyperAI

Command Palette

Search for a command to run...

判別制約最適化フレームワーク(DisCO)

Date

2ヶ月前

Organization

Paper URL

2505.12366

DisCOフレームワークは、2025年5月にテキサスA&M大学の研究チームによって提案され、関連する研究成果は論文「DisCO: 判別制約最適化による大規模推論モデルの強化NeurIPS 2025に選定されました。

DisCOフレームワークは、識別学習の原理に基づいています。識別学習とは、肯定的な回答のスコアを高め、否定的な回答のスコアを下げることで、LRMを強化するというものです。このフレームワークは、グループ相対ポリシー最適化(GRPO)とその派生手法に比べて大きな利点があります。

(i)識別的な目標を採用することにより、難易度バイアスは完全に排除されました。

(ii)非刈り込みスコアリング関数と制約付き最適化手法を使用することで、GRPOとその変種におけるエントロピー不安定性の問題が解決され、長く安定したトレーニングダイナミクスが得られます。

(iii) 高度な識別学習技術を統合して、トレーニング中に多数の質問で肯定的な回答よりも否定的な回答が多く生成される不均衡なデータの問題に対処できます。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています