9日前

The Pile：言語モデル用の多様なテキストからなる800GBのデータセット

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy

論文の詳細を見る

要約

最近の研究では、トレーニングデータセットの多様性を高めることで、大規模言語モデルの汎用的クロスドメイン知識および下流タスクへの一般化能力が向上することが示された。こうした背景を踏まえ、本研究では大規模言語モデルの学習を目的とした825 GiBの英語テキストコーパス「The Pile」を提示する。The Pileは、既存のものと新規に構築された22の多様で高品質なサブセットから構成されており、その多くは学術的または専門的出典に由来している。The Pile上でGPT-2およびGPT-3のチューニングを行わない状態での性能を評価した結果、これらのモデルは特に学術的文体などの一部のコンポーネントに対して困難を示していることが明らかになった。一方で、The Pileで学習されたモデルは、Raw CCおよびCC-100と比較して、The Pileのすべてのコンポーネントにおいて顕著な性能向上を達成するとともに、下流タスク評価でも性能の向上が見られた。さらに詳細な探索的分析を通じて、今後の利用者にとって懸念される可能性のあるデータの側面を記録した。本研究では、コーパス構築に使用したコードを公開している。