HyperAI超神経

バイモードポリシー最適化（BPO）は、2025年8月にテンセントフンユアンチームと中国科学院によって共同で提案されました。関連する研究結果は論文「R-4B: バイモードアニーリングと強化学習によるMLLMにおける汎用自動思考能力の促進”。

BPOは、自動思考向けに設計された強化学習アルゴリズムです。複雑な報酬関数を必要とし、データへの依存度が高く、ハイパーパラメータの影響を受けやすい既存の強化学習（RL）手法とは異なり、BPOはシンプルでルールベースの数学的報酬を利用します。この手法は、思考モードと非思考モードの両方を強制的に組み込むことで、RL学習中にモデルが特定のモードに偏ることを防ぎます。

Command Palette

デュアルモード戦略最適化BPO

AIでAIを構築

HyperAI Newsletters

Command Palette

デュアルモード戦略最適化BPO

関連 Wiki

平均速度戦略（MVP）

安全性比較方法：深層視覚安全プロンプト

スパースコードツリーのデコードツリーのスケッチ

デンス・レトリバー

誘導思考強化

展開しながら学ぶ

ワールドジェン

分解型フォワードパス（デパス）

SoCEクラスのエキスパートスープ

AIでAIを構築

HyperAI Newsletters

Command Palette

デュアルモード戦略最適化BPO

関連 Wiki

平均速度戦略（MVP）

安全性比較方法：深層視覚安全プロンプト

スパースコードツリーのデコードツリーのスケッチ

デンス・レトリバー

誘導思考強化

展開しながら学ぶ

ワールドジェン

分解型フォワードパス（デパス）

SoCEクラスのエキスパートスープ

AIでAIを構築

HyperAI Newsletters

関連 Wiki

平均速度戦略（MVP）

安全性比較方法：深層視覚安全プロンプト

スパースコードツリーのデコードツリーのスケッチ

デンス・レトリバー

誘導思考強化

展開しながら学ぶ

ワールドジェン

分解型フォワードパス（デパス）

SoCEクラスのエキスパートスープ

関連 Wiki

平均速度戦略（MVP）

安全性比較方法：深層視覚安全プロンプト

スパースコードツリーのデコードツリーのスケッチ

デンス・レトリバー

誘導思考強化

展開しながら学ぶ

ワールドジェン

分解型フォワードパス（デパス）

SoCEクラスのエキスパートスープ