日付

2ヶ月前

組織

Paper URL

タグ

DisCOフレームワークは、2025年5月にテキサスA&M大学の研究チームによって提案され、関連する研究成果は論文「DisCO: 判別制約最適化による大規模推論モデルの強化NeurIPS 2025に選定されました。

DisCOフレームワークは、識別学習の原理に基づいています。識別学習とは、肯定的な回答のスコアを高め、否定的な回答のスコアを下げることで、LRMを強化するというものです。このフレームワークは、グループ相対ポリシー最適化（GRPO）とその派生手法に比べて大きな利点があります。

（i）識別的な目標を採用することにより、難易度バイアスは完全に排除されました。

（ii）非刈り込みスコアリング関数と制約付き最適化手法を使用することで、GRPOとその変種におけるエントロピー不安定性の問題が解決され、長く安定したトレーニングダイナミクスが得られます。

(iii) 高度な識別学習技術を統合して、トレーニング中に多数の質問で肯定的な回答よりも否定的な回答が多く生成される不均衡なデータの問題に対処できます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

日付

2ヶ月前

組織

Paper URL

2505.12366

タグ

機械学習

（i）識別的な目標を採用することにより、難易度バイアスは完全に排除されました。

思考連鎖ハイジャック

CoT ハイジャックは、良性の推論によって拒否動作を体系的に弱める新しい脱獄攻撃方法です。

2ヶ月前

グループ分散戦略最適化 GVPO

GRPO などの既存の微調整手法の限界を考慮すると、GVPO は信頼性が高く多用途なトレーニング後のパラダイムとして登場しました。

3ヶ月前

HiPOハイブリッド戦略最適化フレームワーク

HiPO は、主にハイブリッドデータ構築とハイブリッド強化学習を含む適応型 LLM 推論に使用されます。

2ヶ月前

エージェントエントロピーバランス戦略最適化AEPO

AEPO は、高エントロピーツール呼び出しのガイダンスの下で、戦略拡張ブランチと戦略更新のバランス調整と合理化に重点を置いています。

2ヶ月前

ゲート付き注意

Tongyi Qianwen チームは、標準的なソフトマックス注意におけるゲーティングメカニズムの役割を体系的に研究しました。

2ヶ月前

マルチエージェントワークフロー CudaForge

CudaForge は、CUDA カーネルの生成と最適化のためのシンプルで効果的かつ低コストのマルチエージェントワークフローです。

2ヶ月前

ReinFlow、オンライン強化学習フレームワーク

ReinFlow は、軽量な実装、組み込みの探索機能、さまざまなストリーミング戦略バリアントへの幅広い適用性を特徴としています。

3ヶ月前

レイアウト制御フレームワーク InstanceAssemble

InstanceAssemble は、マルチモーダル条件下で高品質かつ制御可能な画像生成を可能にします。

2ヶ月前

DexFlyWheelデータ生成フレームワーク

DexFlyWheel は、アジャイル操作のためのスケーラブルで自己改善的なデータ生成パラダイムです。

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

判別制約最適化フレームワーク（DisCO） | Wiki | HyperAI超神経

Command Palette

判別制約最適化フレームワーク（DisCO）

AIでAIを構築

HyperAI Newsletters

Command Palette

判別制約最適化フレームワーク（DisCO）

関連 Wiki

思考連鎖ハイジャック

グループ分散戦略最適化 GVPO

HiPOハイブリッド戦略最適化フレームワーク

エージェントエントロピーバランス戦略最適化AEPO

ゲート付き注意

マルチエージェントワークフロー CudaForge

ReinFlow、オンライン強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

DexFlyWheelデータ生成フレームワーク

AIでAIを構築

HyperAI Newsletters

Command Palette

判別制約最適化フレームワーク（DisCO）

関連 Wiki

思考連鎖ハイジャック

グループ分散戦略最適化 GVPO

HiPOハイブリッド戦略最適化フレームワーク

エージェントエントロピーバランス戦略最適化AEPO

ゲート付き注意

マルチエージェントワークフロー CudaForge

ReinFlow、オンライン強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

DexFlyWheelデータ生成フレームワーク

AIでAIを構築

HyperAI Newsletters

関連 Wiki

思考連鎖ハイジャック

グループ分散戦略最適化 GVPO

HiPOハイブリッド戦略最適化フレームワーク

エージェントエントロピーバランス戦略最適化AEPO

ゲート付き注意

マルチエージェントワークフロー CudaForge

ReinFlow、オンライン強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

DexFlyWheelデータ生成フレームワーク

関連 Wiki

思考連鎖ハイジャック

グループ分散戦略最適化 GVPO

HiPOハイブリッド戦略最適化フレームワーク

エージェントエントロピーバランス戦略最適化AEPO

ゲート付き注意

マルチエージェントワークフロー CudaForge

ReinFlow、オンライン強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

DexFlyWheelデータ生成フレームワーク