13日前

微調整された言語モデルはゼロショット学習者である

Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le

要約

本論文では、言語モデルのゼロショット学習能力を向上させるための簡便な手法を検討する。我々は、インストラクションチューニング（自然言語による指示テンプレートで記述されたタスク群を用いた言語モデルの微調整）が、未見のタスクにおけるゼロショット性能を著しく向上させることを示す。1370億パラメータの事前学習済み言語モデルを用い、60以上の自然言語による指示テンプレートで表現されたNLPタスクの集合上でインストラクションチューニングを実施した。このチューニング済みモデルを、評価対象の25タスクのうち未見のタスクタイプに対して評価した結果、我々が「FLAN」と呼ぶこのモデルは、微調整を行わない元のモデルと比較して大幅な性能向上を達成し、25タスク中20タスクにおいてゼロショットの1750億パラメータGPT-3を上回った。さらに、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeの各タスクにおいて、少しだけの例（few-shot）GPT-3を大きく上回る性能を発揮した。アブレーション研究により、微調整に用いるデータセット数、モデルのスケール、自然言語によるインストラクションの有無が、インストラクションチューニングの成功に重要な要因であることが明らかになった。