3ヶ月前

モデル学習

アプローチ／フレームワーク

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao

概要

大規模言語モデル（LLM）は、複雑なタスクにおける精度向上のため、ますますChain-of-Thought（CoT）推論に依存している。しかし、常に長大な推論プロセスを生成するため、トークン消費量が増加し、推論コストが高くなるという非効率性が生じる。本論文では、適応的推論制御を可能にするフレームワーク「ハイブリッドポリシー最適化（HiPO）」を提案する。HiPOは、モデルが詳細な推論を行う（Think-on）べきタイミングと、直接回答する（Think-off）べきタイミングを適切に選択できるようにする。具体的には、Think-onとThink-offのペアレスポンスを提供するハイブリッドデータパイプラインと、精度と効率のバランスを保ちつつ、詳細な推論への過度な依存を回避するハイブリッド強化学習報酬システムを統合している。数学およびコード生成のベンチマークにおいて実施した実験の結果、HiPOはトークン長を大幅に削減しつつ、精度を維持あるいは向上させることを示した。本研究の成果により、HiPOがリソース制約のある実世界環境における推論指向型LLMの実用化を進めるための原理的かつ効率的なアプローチとなることを期待する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

モデル学習

アプローチ／フレームワーク

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao

概要

大規模言語モデル（LLM）は、複雑なタスクにおける精度向上のため、ますますChain-of-Thought（CoT）推論に依存している。しかし、常に長大な推論プロセスを生成するため、トークン消費量が増加し、推論コストが高くなるという非効率性が生じる。本論文では、適応的推論制御を可能にするフレームワーク「ハイブリッドポリシー最適化（HiPO）」を提案する。HiPOは、モデルが詳細な推論を行う（Think-on）べきタイミングと、直接回答する（Think-off）べきタイミングを適切に選択できるようにする。具体的には、Think-onとThink-offのペアレスポンスを提供するハイブリッドデータパイプラインと、精度と効率のバランスを保ちつつ、詳細な推論への過度な依存を回避するハイブリッド強化学習報酬システムを統合している。数学およびコード生成のベンチマークにおいて実施した実験の結果、HiPOはトークン長を大幅に削減しつつ、精度を維持あるいは向上させることを示した。本研究の成果により、HiPOがリソース制約のある実世界環境における推論指向型LLMの実用化を進めるための原理的かつ効率的なアプローチとなることを期待する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています