HyperAIHyperAI

Command Palette

Search for a command to run...

HiPOハイブリッド戦略最適化フレームワーク

Date

2ヶ月前

Organization

南京大学
クアイショウテクノロジー

Paper URL

2509.23967

HiPO(ハイブリッドポリシー最適化)は、2025年9月に快手と南京大学の研究チームによって提案されました。関連する研究成果は論文「HiPO: LLMにおける動的推論のためのハイブリッドポリシー最適化”。

HiPOは、適応型推論制御のためのフレームワークであり、LLMが詳細な推論(Think-on)を実行するタイミングと、直接的な応答(Think-off)を提供するタイミングを、選択的に決定することを可能にします。具体的には、HiPOは、Think-onとThink-offの応答をペアにして提供するハイブリッドデータパイプラインと、詳細な推論への過度な依存を回避しながら精度と効率性のバランスをとるハイブリッド強化学習報酬システムを組み合わせています。数学およびプログラミングベンチマークを用いた実験では、HiPOが精度を維持または向上させながらトークン長を大幅に削減できることが実証されています。

フレームワーク図

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています