15日前

チェーン・オブ・シンキング・プロンプトが大規模言語モデルに推論を引き出す

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
チェーン・オブ・シンキング・プロンプトが大規模言語モデルに推論を引き出す
要約

複雑な推論を実行する際、大規模言語モデルの能力が、思考の連鎖(中間推論ステップの連鎖)を生成することによって著しく向上することを検証する。特に、十分に大規模な言語モデルでは、単純な「思考の連鎖プロンプト(chain of thought prompting)」という手法によって、自然に推論能力が発現することを示す。この手法は、プロンプト内でいくつかの思考の連鎖の例(エグザンプル)を提示するものである。3つの大規模言語モデルを対象とした実験により、思考の連鎖プロンプトが算術、常識的推論、記号的推論の多様なタスクにおいて性能向上をもたらすことが明らかになった。実証的な効果は顕著である。例えば、540Bパラメータを持つ言語モデルに対して、わずか8つの思考の連鎖エグザンプルを用いたプロンプト処理により、数学文章問題のベンチマークであるGSM8Kにおいて、検証器を備えた微調整済みGPT-3をも上回る最先端の精度が達成された。

チェーン・オブ・シンキング・プロンプトが大規模言語モデルに推論を引き出す | 最新論文 | HyperAI超神経