Command Palette
Search for a command to run...
HiPOハイブリッド戦略最適化フレームワーク
HiPO(ハイブリッドポリシー最適化)は、2025年9月に快手と南京大学の研究チームによって提案されました。関連する研究成果は論文「HiPO: LLMにおける動的推論のためのハイブリッドポリシー最適化”。
HiPOは、適応型推論制御のためのフレームワークであり、LLMが詳細な推論(Think-on)を実行するタイミングと、直接的な応答(Think-off)を提供するタイミングを、選択的に決定することを可能にします。具体的には、HiPOは、Think-onとThink-offの応答をペアにして提供するハイブリッドデータパイプラインと、詳細な推論への過度な依存を回避しながら精度と効率性のバランスをとるハイブリッド強化学習報酬システムを組み合わせています。数学およびプログラミングベンチマークを用いた実験では、HiPOが精度を維持または向上させながらトークン長を大幅に削減できることが実証されています。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.