2日前

BeyondWeb:1兆スケールの事前学習における合成データのスケーリングから得た教訓

Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
BeyondWeb:1兆スケールの事前学習における合成データのスケーリングから得た教訓
要約

大規模言語モデル(LLM)の事前学習における最近の進展は、データ量の単純な拡大がやがて限界に達し、収益の逓減が生じること(データウォールに達すること)を示している。こうした状況に対応して、事前学習における合成データの活用が、性能の限界を押し広げる有望なアプローチとして浮上している。しかし、合成データの品質に影響を与える要因については、依然として十分に理解されていない。本研究では、事前学習用に高品質な合成データを生成するフレームワーク「BeyondWeb」を提案する。BeyondWebは従来のウェブスケールデータセットの能力を大幅に拡張し、14のベンチマーク評価を統合して平均した結果、最先端の合成事前学習データセットであるCosmopediaやNemotron-CCの高品質合成サブセット(Nemotron-Synth)をそれぞれ最大5.1ポイント(pp)、2.6pp上回っている。また、オープンウェブデータに比べ最大7.7倍、Nemotron-Synthに比べ最大2.7倍の高速な学習を実現している。特に注目すべきは、BeyondWeb上で1800億トークン分学習した30億パラメータのモデルが、Cosmopedia上で同じトークン量で学習した80億パラメータのモデルを上回ることである。さらに、BeyondWebの実験から得られた合成データの事前学習に関するいくつかの知見を提示する:合成データの効果をもたらす要因、どのデータをどのように再表現すべきか、モデルのサイズやアーキテクチャの種類がデータ品質に与える影響などである。全体として、本研究は、高品質な合成事前学習データを生成するための「万能の解」は存在しないことを示している。最良の成果を得るためには、多くの要因を統合的に最適化する必要があり、これは厳密な科学的アプローチと実践的な専門知識を要する困難な課題である。単純なアプローチではわずかな改善しか得られず、場合によっては大きなコストを要するが、適切に実行された手法は、BeyondWebが示すように、根本的な改善をもたらす可能性がある。

BeyondWeb:1兆スケールの事前学習における合成データのスケーリングから得た教訓 | 最新論文 | HyperAI超神経