合成データでWeb文書を再構築、AI学習データの限界を突破へ Datology AIが発表した「BeyondWeb」が、高品質な訓練データ不足の課題を解決する新フレームワークとして注目集まる
Datology AIは、ウェブドキュメントを再構成して高品質な合成データを生成する新フレームワーク「BeyondWeb」を発表した。この技術は、大規模言語モデル(LLM)の訓練に必要な高品質なウェブデータの枯渇という課題に対応するもので、従来の方法よりはるかに効率的とされる。現在、LLMの訓練に使われるトークン数は数兆単位に達しており、良質なウェブデータの入手が難しくなっている。Datology AIはこれを「データの壁」と呼び、BeyondWebがその解決策だと位置づけている。 BeyondWebは、既存のウェブコンテンツを情報密度を高め、教育的なトーンに改善し、構造を最適化することで、訓練効率を向上させる。実験結果によると、8Bパラメータモデルにおいて、Hugging FaceのCosmopediaデータセットより5.1ポイント、NvidiaのNemotron-CCより2.6ポイントの精度向上が確認された。14の標準ベンチマークで0ショットおよび5ショット設定を評価。また、訓練速度はオープンウェブデータの7.7倍、Nemotron Syntheticの2.7倍速く、3BモデルがCosmopediaで訓練された8Bモデルを同等のトークン量で上回る結果も得られた。 さらに、660億トークンで約64%の精度に到達し、RedPajamaの7.7倍、Nemotron-Synthの2.7倍の性能を発揮。研究チームは、合成データ生成において「多様性」が持続的な進歩の鍵であると指摘。標準的な手法は初期段階では有効だが、スタイルの単調さが生じ、効果が飽和する傾向にある。また、チャットがLLMの主な用途であるにもかかわらず、ウェブデータのうち会話スタイルは2.7%未満にとどまり、これに注力することで性能向上が見られたが、効果の伸びはすぐに頭打ちになる。 モデルサイズの検証では、1Bから3Bへの拡大でデータ品質が1.5ポイント向上したが、8B以降は改善が止まることが判明。つまり、小規模モデルでも高品質な合成データ生成が可能であり、リソースが限られた組織にとっても有効な選択肢となる。 BeyondWebは、ArceeAIの4.5Bモデルの訓練に実用化されており、トレイル数兆トークンに対応するスケーラブルなパイプラインが構築された。ただし、現時点では研究用の無料提供は行われていない。 他社動向として、MicrosoftはPhi-4を合成データで訓練、NvidiaはNemotron-4 340Bを発表。OpenAIもGPT-5の訓練に合成データを活用しており、自社のo3モデルで生成されたデータを用いている。これらの事例から、合成データはコスト削減だけでなく、学習の質を高める手段としての価値が広がっている。