15日前

言語モデルにおけるコンポジショナリティギャップの測定と縮小

Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis
言語モデルにおけるコンポジショナリティギャップの測定と縮小
要約

我々は、言語モデルが部分問題の解答を正しく組み合わせることで全体の解に至る構成的推論(compositional reasoning)タスクを実行する能力を調査する。特に、部分問題すべてを正しく回答できるにもかかわらず、全体の解を正しく生成できない頻度を測定し、これを「構成性ギャップ(compositionality gap)」と呼ぶ。このギャップを評価するために、事前学習段階で一緒に観測されることが極めてまれな複数の事実を組み合わせて回答が必要なマルチホップ(multi-hop)質問を提示する。GPT-3シリーズのモデルにおいて、モデルサイズが増大するに従い、単一ホップ(single-hop)の質問応答性能はマルチホップの性能よりも速く向上することが明らかになった。その結果、構成性ギャップは減少しない。この驚くべき結果は、より強力なモデルがより多くの事実知識を記憶・再現できる一方で、このような構成的推論能力には対応する向上が見られないことを示唆している。次に、チェーン・オブ・オブザーブ(chain of thought)をはじめとする誘導的プロンプティング(elicitive prompting)が、明示的な推論により構成性ギャップを縮小できることを示す。さらに、我々はチェーン・オブ・オブザーブをさらに改善した新しい手法「セルフアスク(self-ask)」を提案する。この手法では、初期の質問に答える前に、モデル自身が追加の質問を立て(そして自ら回答する)という構造を導入する。最終的に、セルフアスクによる構造化されたプロンプティングにより、追加の質問に検索エンジンを統合することが容易になり、その結果、精度がさらに向上することを実証した。

言語モデルにおけるコンポジショナリティギャップの測定と縮小 | 最新論文 | HyperAI超神経