2ヶ月前

FineWeb2: すべての言語に適応するための1つのパイプライン -- プリトレーニングデータ処理の言語間適応

Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
FineWeb2: すべての言語に適応するための1つのパイプライン -- プリトレーニングデータ処理の言語間適応
要約

最先端の大規模言語モデル(LLMs)の事前学習には、大量のクリーンで多様なテキストデータが必要です。高品質な英語の事前学習データセットのオープン開発は最近大きな進展を遂げていますが、高性能な多言語対応LLMsの学習は依然として課題であり、特に多くの言語に適応したフィルタリングと重複除去パイプラインの構築が困難となっています。本研究では、FineWebに基づく新しい事前学習データセット作成パイプラインを紹介します。このパイプラインは自動的に任意の言語に対応できるよう設計されています。私たちは9つの異なる言語に対して、測定可能な基準に基づいて選択された意味的かつ情報量豊富な評価タスクを用いて、パイプライン設計の選択肢を広範に検討しました。最終的には、当社のパイプラインを使用することで、従来のデータセットよりも高性能なモデルを生成する非英語コーパスを作成できることを示しています。さらに、重複数と品質を考慮した単純かつ体系的なデータセット再バランス手法も提案し、これによりさらなる性能向上が可能となります。最後に、ほぼ100のCommon Crawlスナップショットを使用して1000以上の言語に対応する当社のパイプラインを拡大し、新たな20テラバイト(50億ドキュメント)の多言語対応データセットFineWeb2を作成しました。このデータセットおよび当社のパイプライン、学習コードベース、評価コードベースは公開されます。科技/学术术语处理:大規模言語モデル (Large Language Models, LLMs)クリーン (Clean)テキストデータ (Text Data)オープン開発 (Open Development)事前学習 (Pre-training)フィルタリング (Filtering)重複除去 (Deduplication)パイプライン (Pipeline)コーパス (Corpus)評価タスク (Evaluation Tasks)基準 (Criteria)性能向上 (Performance Uplift)スナップショット (Snapshots)Common Crawlテラバイト (Terabyte)ドキュメント (Document)注釈:「FineWeb」や「Common Crawl」などの固有名詞はそのまま使用しています。「事前学習」や「コーパス」などは日本語でも一般的に使用される科技用語として翻訳しています。

FineWeb2: すべての言語に適応するための1つのパイプライン -- プリトレーニングデータ処理の言語間適応 | 最新論文 | HyperAI超神経