2ヶ月前

リターンの逓減の錯覚：大規模言語モデルにおける長期的実行の測定

Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

要約

大規模言語モデル（LLM）の継続的なスケーリングは、限界効果の減少をもたらすだろうか？実世界における価値は、エージェントが遂行できるタスクの長さに起因することが多い。本研究では、単一ステップの精度向上が、モデルが成功裏に完了できるタスクの長さに対して指数関数的な改善をもたらすという、単純だが直感に反する事実に着目する。次に、単純なタスクを長くしたときにLLMが失敗する原因は、推論能力の不足ではなく、実行（execution）における誤りに起因するのではないかと主張する。長期間にわたるタスクを解決するための知識と計画を明示的に提示することで、実行能力を分離・強化することを提案する。その結果、小規模モデルが単一ステップで100％の正確性を達成している状況でも、大規模モデルははるかに多くのステップを正しく実行できることを確認した。また、ステップ数が増えるにつれて、モデルの1ステップあたりの正確性が低下する傾向があることを観察した。これは単に長文脈処理の限界によるものではなく、興味深いことに、自己条件付け（self-conditioning）効果が存在することが明らかになった。すなわち、前回のステップで生じた誤りがコンテキストに含まれていると、モデルが誤りを犯しやすくなる現象である。この自己条件付け効果は、モデルサイズを単に拡大するだけでは軽減されない。一方で、最近の「思考型モデル」（thinking models）は、この自己条件付けを示さず、単一ステップで非常に長いタスクを遂行できることがわかった。最後に、最先端の思考型モデルについて、単一ステップで実行可能なタスクの長さをベンチマークした。総合的に見て、実行能力に焦点を当てることで、LLMが複雑な推論問題を解ける一方で、単純なタスクを長くすると失敗するという議論を整合させることができるとともに、長期間にわたるタスクに対して、モデルサイズのスケーリングおよび逐次的なテスト時計算リソースの拡大がもたらす莫大な利点を強調する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

リターンの逓減の錯覚：大規模言語モデルにおける長期的実行の測定

Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

要約

AI で AI を構築

Hyper Newsletters