概要

質問に答える際、人間は異なるモダリティにわたる情報を活用して、一貫性と完全性のある思考の連鎖（Chain of Thought: CoT）を合成します。深層学習モデル、特に大規模言語モデルの場合、この過程は通常ブラックボックスとなります。最近では、科学質問ベンチマークが使用されてAIシステムの多段階推論能力と解釈可能性を診断するようになりました。しかし、既存のデータセットは答えに対する注釈を提供していないか、またはテキストのみのモダリティに制限され、小規模で領域の多様性が限定的なものとなっています。この課題に対処するために、私たちはScience Question Answering (ScienceQA)という新しいベンチマークを提示します。これは約21,000件の多モダリティ選択肢付き質問から構成され、科学トピックの多様なセットとそれらの答えに対する講義や説明の注釈が含まれています。さらに、言語モデルを設計して、ScienceQAの質問に答える際に多段階推論過程を模倣するための講義や説明を生成させるように学習させました。ScienceQAは言語モデルにおけるCoTの有用性を示しており、CoTにより少ショット設定でのGPT-3での質問応答性能が1.20%向上し、微調整されたUnifiedQAでは3.99%向上しています。また、入力として説明を与えることでモデルがそれらを利用できる上限を探ることも試みました；その結果、GPT-3の少ショット性能が18.96%向上することが観察されました。私たちの分析によれば、言語モデルは人間と同様に説明から恩恵を受けられ、少ないデータから学習でき、同じ性能を達成するためにわずか40%のデータで十分であることが示されています。データとコードはhttps://scienceqa.github.io で公開されています。

ソースPDF