言語モデルは少量学習者である

最近の研究では、大規模なテキストコーパスでの事前学習に続いて特定のタスクへの微調整を行うことで、多くのNLPタスクやベンチマークで大幅な進歩が見られました。この手法は一般的にアーキテクチャ上ではタスク非特異的ですが、それでも数千から数万の例を含むタスク固有の微調整データセットが必要です。一方、人間は新しい言語タスクを数例または単純な指示から行うことができますが、これは現在のNLPシステムにとって依然として大きな課題となっています。本稿では、言語モデルを大幅に拡大することで、タスク非特異的な少ショット性能が大きく向上し、場合によっては従来の最先端微調整手法と競合するレベルに達することを示します。具体的には、1750億パラメータを持つ自己回帰型言語モデルGPT-3(これはこれまでの非疎な言語モデルの中で最大の10倍以上のパラメータ数)を訓練し、その少ショット設定での性能を評価しました。すべてのタスクにおいて、GPT-3は勾配更新や微調整を行わずに適用され、タスクと少ショットデモンストレーションはモデルとのテキストインタラクションのみで指定されました。GPT-3は翻訳、質問応答、穴埋め問題などの多くのNLPデータセットで優れた性能を示し、また即時推論やドメイン適応が必要な単語並び替え、新規単語を使用した文章作成、3桁の算術演算などのいくつかのタスクでも高い性能を発揮しました。同時に、GPT-3の少ショット学習がまだ苦戦しているいくつかのデータセットや、大規模ウェブコーパスでの学習に関連する方法論的な問題があるデータセットも同定しました。最後に、GPT-3が人間評価者が人間が書いた記事と区別するのが難しいニュース記事のサンプルを生成できることを見出しました。この結果の社会的な影響について一般にGPT-3に関する議論を行います。注:「非疎」(non-sparse)という表現は一般的ではありませんが、「疎」ではないという意味で使用しています。「ウェブコーパス」(web corpora)も同様です。