16日前
自動化LLMスピードランニングベンチマーク:NanoGPTの改善の再現
Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach

要約
大規模言語モデル(LLM)の急速な進歩は、科学的な進歩を支援する可能性を持っています。この取り組みにおいて重要な能力の一つは、既存の研究を再現する能力です。活性な研究分野におけるAIエージェントの結果再現能力を評価するために、私たちはNanoGPTスピードラン競争に参加した研究コミュニティの貢献を活用し、自動化されたLLMスピードランベンチマークを導入しました。NanoGPTスピードランは、最短時間でGPT-2モデルを訓練することを目指す競争です。19のスピードランタスクそれぞれは、エージェントに対して過去の記録と訓練スクリプトを提供し、オプションで3種類のヒント形式(疑似コードから論文のような新記録改善の説明まで)のいずれかが組み合わされることがあります。これらの記録は設計上迅速に実行され、スピードラン改善には高レベルのアルゴリズム改良からハードウェアに特化した最適化まで多様なコードレベルでの変更が含まれています。これらの特徴により、ベンチマークは大規模言語モデル訓練の向上という最先端課題に対してアクセスしやすくかつ現実的なものとなっています。私たちは最近の推論型LLMと最先端(SoTA)フレームワークが、詳細なヒント即便でも既知の革新を当社のベンチマークで再実装することが困難であることを発見しました。したがって、私たちのベンチマークは科学的再現性を自動化するための大規模言語モデル的能力に関する単純かつ飽和していない測定手段を提供します。これは自律的な研究エージェントにとって必要不可欠(ただし十分ではない)スキルです。