2ヶ月前

LLMの洗練の芸術：質問し、洗練し、信頼する

Kumar Shridhar; Koustuv Sinha; Andrew Cohen; Tianlu Wang; Ping Yu; Ram Pasunuru; Mrinmaya Sachan; Jason Weston; Asli Celikyilmaz

論文の詳細を見る

要約

近年、大規模言語モデル（LLMs）は優れた生成能力を示していますが、それら自身の生成品質を判断できるのでしょうか。自己改良と呼ばれる一般的な概念では、大規模言語モデルが誤りを検出し、修正する能力を持つとされています。しかし、最近の実証的証拠はその逆を示しており、推論が関与する場合、大規模言語モデルはしばしば誤りを正確に特定することが困難であることが指摘されています。これを解決するために、私たちはART（Ask, Refine, and Trust：質問し、改良し、信頼する）という改良による推論目標を提案します。この方法は、大規模言語モデルがいつ出力を改良すべきかを決定するために必要な質問を行い、改良結果と初期予測をランキングすることで信頼度を確認または保留することを目指しています。数学的な文章問題（GSM8K）と質問応答（StrategyQA）の2つの多段階推論タスクにおいて、ARTは自己改良ベースラインに対して+5ポイントの性能向上を達成しました。また、決定を行うために使用されるモデルが非常に小さいにもかかわらず、このような成果を得ています。さらに、より大きなモデルの微調整に代わるコスト効果の高い代替手段として、小さなモデルを使用して改良決定を行う利点も示しています。