17日前

ステップ認識型検証器を用いた大規模言語モデルの推論能力向上

Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen
ステップ認識型検証器を用いた大規模言語モデルの推論能力向上
要約

Few-shot学習は、限られた例から一般化する能力を要求する挑戦的なタスクである。GPT-3やPaLMなどの大規模言語モデルはこの分野で著しい進展を遂げてきたが、算術問題を評価するベンチマークであるGSM8Kのような推論タスクにおいては依然として困難を抱えている。推論能力を向上させるため、従来の研究では、最終的な答えを提示する前に一連の推論ステップを引き出すようなプロンプトを用いて言語モデルを誘導する手法が提案されており、これによりGSM8Kにおける問題解決率は17.9%から58.1%まで大幅に向上した。本論文では、言語モデルの推論能力をさらに強化するための新規アプローチ「DIVERSE(Diverse Verifier on Reasoning Step)」を提示する。DIVERSEは以下の3つの主要な構成要素からなる:第一に、同一の質問に対して異なる推論経路を探索できるように多様なプロンプトを生成する;第二に、重み付き投票方式に基づいて誤った答えをフィルタリングする検証者(verifier)を用いる;第三に、推論チェーン全体ではなく、各推論ステップを個別に検証する。我々は最新の言語モデルであるcode-davinci-002を用いてDIVERSEを評価し、8つの推論ベンチマークのうち6つで新たなSOTA(最良の結果)を達成した(例:GSM8Kでは74.4%から83.2%へ向上)。

ステップ認識型検証器を用いた大規模言語モデルの推論能力向上 | 最新論文 | HyperAI超神経