Command Palette
Search for a command to run...
Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

要約
大規模言語モデルは、膨大な事前学習データセットから学習することで、ますます多様なタスクを処理する能力を獲得する。しかし、研究者たちはこれらのデータセットの改善に努めている一方で、事前学習プロセスがデータから知識やアイデアをどれだけ効率的に抽出できているかを理解しようとする取り組みはほとんどない。本研究では、テスト時計算資源を活用したリトリーバー拡張生成(retrieval-augmented generation)を用いて、事前学習プロセスがデータセットの価値のどの程度を残したかを定量化し、モデルスケールに応じてその変化を分析する。その結果、標準的で主にオープンソース化されたデータセットから事前学習後にリトリーブを行うことで、MMLU、Math-500、SimpleQAにおいて顕著な精度向上が得られ、データの洗浄(decontamination)処理後もその効果が持続することを示した。特にMMLUでは、リトリーブが事前学習単体と比較して約5倍の計算効率(compute multiplier)を発揮することが観察された。さらに、リトリーブした文脈を解析するための追加のテスト時計算資源を活用することで、成果をさらに向上させられることを示した。公開されているLLaMA 3.1 8Bモデルにおいて、MMLUの精度は10パーセンテージポイント向上した。総合的に、本研究の結果は、現在の事前学習手法が既存の事前学習データセットに含まれる情報の大部分を活用できていないことを示唆しており、今後の進展の余地は依然として大きくある。