HyperAIHyperAI

Command Palette

Search for a command to run...

微調整された言語モデルはゼロショット学習者である

Jason Wei Maarten Bosma Vincent Y. Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le

概要

本論文では、言語モデルのゼロショット学習能力を向上させるための簡便な手法を検討する。我々は、インストラクションチューニング(自然言語による指示テンプレートで記述されたタスク群を用いた言語モデルの微調整)が、未見のタスクにおけるゼロショット性能を著しく向上させることを示す。1370億パラメータの事前学習済み言語モデルを用い、60以上の自然言語による指示テンプレートで表現されたNLPタスクの集合上でインストラクションチューニングを実施した。このチューニング済みモデルを、評価対象の25タスクのうち未見のタスクタイプに対して評価した結果、我々が「FLAN」と呼ぶこのモデルは、微調整を行わない元のモデルと比較して大幅な性能向上を達成し、25タスク中20タスクにおいてゼロショットの1750億パラメータGPT-3を上回った。さらに、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeの各タスクにおいて、少しだけの例(few-shot)GPT-3を大きく上回る性能を発揮した。アブレーション研究により、微調整に用いるデータセット数、モデルのスケール、自然言語によるインストラクションの有無が、インストラクションチューニングの成功に重要な要因であることが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
微調整された言語モデルはゼロショット学習者である | 記事 | HyperAI超神経