HyperAIHyperAI

Command Palette

Search for a command to run...

テスト時に事前学習データを再利用することはコンピュート倍増要因である

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

概要

大規模言語モデルは、膨大な事前学習データセットから学習することで、ますます多様なタスクを処理する能力を獲得する。しかし、研究者たちはこれらのデータセットの改善に努めている一方で、事前学習プロセスがデータから知識やアイデアをどれだけ効率的に抽出できているかを理解しようとする取り組みはほとんどない。本研究では、テスト時計算資源を活用したリトリーバー拡張生成(retrieval-augmented generation)を用いて、事前学習プロセスがデータセットの価値のどの程度を残したかを定量化し、モデルスケールに応じてその変化を分析する。その結果、標準的で主にオープンソース化されたデータセットから事前学習後にリトリーブを行うことで、MMLU、Math-500、SimpleQAにおいて顕著な精度向上が得られ、データの洗浄(decontamination)処理後もその効果が持続することを示した。特にMMLUでは、リトリーブが事前学習単体と比較して約5倍の計算効率(compute multiplier)を発揮することが観察された。さらに、リトリーブした文脈を解析するための追加のテスト時計算資源を活用することで、成果をさらに向上させられることを示した。公開されているLLaMA 3.1 8Bモデルにおいて、MMLUの精度は10パーセンテージポイント向上した。総合的に、本研究の結果は、現在の事前学習手法が既存の事前学習データセットに含まれる情報の大部分を活用できていないことを示唆しており、今後の進展の余地は依然として大きくある。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています