7日前
言語モデルは教師なしマルチタスク学習者である
{Jeffrey Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Dario Amodei}
要約
自然言語処理タスク、たとえば質問応答、機械翻訳、読解、要約などは、通常、タスク固有のデータセットを用いた教師あり学習によってアプローチされる。本研究では、数百万のウェブページから構成される新規データセット「WebText」上で学習させた言語モデルが、明示的な教師信号なしにこれらのタスクを学習し始めることが示された。ドキュメントと質問を入力条件として与えた場合、言語モデルが生成する回答はCoQAデータセットにおいて55のF1スコアに達し、127,000以上の訓練例を用いないにもかかわらず、4つのベースラインシステムのうち3つと同等、あるいはそれ以上の性能を達成した。言語モデルの容量は、ゼロショットタスク転送の成功にとって不可欠であり、モデルの容量を増大させることで、複数のタスクにおいて対数線形の改善が見られた。我々が開発した最大規模のモデルであるGPT-2は、15億パラメータを持つTransformerモデルであり、ゼロショット設定下でテストされた8つの言語モデルデータセットのうち7つで最先端の結果を達成しているが、依然としてWebTextに対してはアンダーフィットしている。モデルから生成されたサンプルは、こうした改善を反映しており、一貫性のある段落レベルのテキストを含んでいる。これらの結果は、自然に現れる例からタスクを学習することができる言語処理システムの構築に向けた有望な道筋を示唆している。