15日前

STaR：リASONINGによるリASONINGのブートストラッピング

Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

要約

複雑な推論タスク、たとえば数学問題や常識的質問への回答において、段階的な「思考の連鎖（chain-of-thought）」を生成することで、言語モデルの性能が向上することが示されている。しかし、現在のところ、言語モデルによる推論の生成を促すには、膨大な推論データセットを手動で構築するか、少量のサンプルによる推論のみを用いることで精度を犠牲にする必要がある。本研究では、少量の推論例と、推論を含まない大規模なデータセットを繰り返し活用することで、段階的により複雑な推論能力を自己学習させる手法を提案する。この手法は「自己学習推論者（Self-Taught Reasoner, STaR）」と呼ばれる。STaRは単純なループ構造に基づく：少数の推論例を提示として用いて、多数の質問に対して推論を生成し、その答えを導出する。生成された答えが誤りである場合、正しい答えを提示して再び推論を生成する。最終的に正解に至ったすべての推論を用いて微調整（fine-tune）を行う。このプロセスを繰り返す。実験の結果、STaRは最終答えを直接予測するように微調整されたモデルと比較して、複数のデータセット上で顕著な性能向上を達成した。また、STaRは、30倍規模の最先端言語モデルを常識的質問データセット（CommensenseQA）で微調整した場合と同等の性能を発揮した。したがって、STaRはモデルが自ら生成した推論から学習することで、自己改善を可能にする手法である。