2ヶ月前

CoT-Space：強化学習を用いた内部のゆっくりとした思考のための理論的枠組み

Zeyu Gan Hao Yi Yong Liu

要約

強化学習（Reinforcement Learning, RL）は、大規模言語モデル（Large Language Models, LLM）の推論能力を向上させるための重要なアプローチとして注目されている。しかし、従来のトークンレベルのRLフレームワークは、Chain-of-Thought（CoT）のような複雑で多段階の思考プロセスの本質である「推論レベル」の性質と整合していないという、重要な理論的ギャップが存在している。この課題に対処するため、本研究では、LLMの推論を離散的なトークン予測タスクから、連続的で推論レベルの意味空間における最適化プロセスへと再定式化する新しい理論枠組み「CoT-Space」を提案する。本研究では、ノイズの観点とリスクの観点からこのプロセスを分析し、最適なCoT長への収束が、過学習と未学習の根本的なトレードオフに起因する自然な結果であることを示した。さらに、広範な実験により、理論的知見の強固な実証的裏付けが得られた。本フレームワークは、過剰な思考（overthinking）といった実証的現象を一貫した説明を提供するだけでなく、より効果的で汎用性の高い推論エージェントの今後の開発を支援する堅固な理論的基盤を提供するものである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

CoT-Space：強化学習を用いた内部のゆっくりとした思考のための理論的枠組み

Zeyu Gan Hao Yi Yong Liu

要約

AI で AI を構築

Hyper Newsletters