BeyondWeb:1兆スケールの事前学習における合成データのスケーリングから得た教訓

大規模言語モデル(LLM)の事前学習における最近の進展は、データ量の単純な拡大がやがて限界に達し、収益の逓減が生じること(データウォールに達すること)を示している。こうした状況に対応して、事前学習における合成データの活用が、性能の限界を押し広げる有望なアプローチとして浮上している。しかし、合成データの品質に影響を与える要因については、依然として十分に理解されていない。本研究では、事前学習用に高品質な合成データを生成するフレームワーク「BeyondWeb」を提案する。BeyondWebは従来のウェブスケールデータセットの能力を大幅に拡張し、14のベンチマーク評価を統合して平均した結果、最先端の合成事前学習データセットであるCosmopediaやNemotron-CCの高品質合成サブセット(Nemotron-Synth)をそれぞれ最大5.1ポイント(pp)、2.6pp上回っている。また、オープンウェブデータに比べ最大7.7倍、Nemotron-Synthに比べ最大2.7倍の高速な学習を実現している。特に注目すべきは、BeyondWeb上で1800億トークン分学習した30億パラメータのモデルが、Cosmopedia上で同じトークン量で学習した80億パラメータのモデルを上回ることである。さらに、BeyondWebの実験から得られた合成データの事前学習に関するいくつかの知見を提示する:合成データの効果をもたらす要因、どのデータをどのように再表現すべきか、モデルのサイズやアーキテクチャの種類がデータ品質に与える影響などである。全体として、本研究は、高品質な合成事前学習データを生成するための「万能の解」は存在しないことを示している。最良の成果を得るためには、多くの要因を統合的に最適化する必要があり、これは厳密な科学的アプローチと実践的な専門知識を要する困難な課題である。単純なアプローチではわずかな改善しか得られず、場合によっては大きなコストを要するが、適切に実行された手法は、BeyondWebが示すように、根本的な改善をもたらす可能性がある。