HyperAIHyperAI

Command Palette

Search for a command to run...

The Pile:言語モデル用の多様なテキストからなる800GBのデータセット

概要

最近の研究では、トレーニングデータセットの多様性を高めることで、大規模言語モデルの汎用的クロスドメイン知識および下流タスクへの一般化能力が向上することが示された。こうした背景を踏まえ、本研究では大規模言語モデルの学習を目的とした825 GiBの英語テキストコーパス「The Pile」を提示する。The Pileは、既存のものと新規に構築された22の多様で高品質なサブセットから構成されており、その多くは学術的または専門的出典に由来している。The Pile上でGPT-2およびGPT-3のチューニングを行わない状態での性能を評価した結果、これらのモデルは特に学術的文体などの一部のコンポーネントに対して困難を示していることが明らかになった。一方で、The Pileで学習されたモデルは、Raw CCおよびCC-100と比較して、The Pileのすべてのコンポーネントにおいて顕著な性能向上を達成するとともに、下流タスク評価でも性能の向上が見られた。さらに詳細な探索的分析を通じて、今後の利用者にとって懸念される可能性のあるデータの側面を記録した。本研究では、コーパス構築に使用したコードを公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
The Pile:言語モデル用の多様なテキストからなる800GBのデータセット | 記事 | HyperAI超神経