16일 전
자동화된 LLM 스피드런 벤치마크: NanoGPT 개선 재현
Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach

초록
대형 언어 모델(LLM)의 급속한 발전은 과학적 진보를 돕는 잠재력을 가지고 있습니다. 이 노력의 핵심 능력 중 하나는 기존 연구를 재현하는 능력입니다. 활발한 연구 분야에서 AI 에이전트가 결과를 재현할 수 있는 능력을 평가하기 위해, NanoGPT 스피드런 경쟁에서 연구 커뮤니티의 기여를 활용하여 자동화된 LLM 스피드런 벤치마크(Automated LLM Speedrunning Benchmark)를 소개합니다. NanoGPT 스피드런은 가장 짧은 시간 내에 GPT-2 모델을 훈련시키는 경쟁입니다.19개의 스피드런 작업 각각은 에이전트에게 이전 기록 훈련 스크립트와 함께 제공되며, 선택적으로 의사코드부터 논문과 같은 설명까지 세 가지 힌트 형식 중 하나와 함께 제공될 수 있습니다. 이 기록들은 설계상 빠르게 실행되며, 스피드런 개선 사항은 고수준 알고리즘 발전부터 하드웨어 인식 최적화에 이르기까지 다양한 코드 수준의 변경을 포함합니다. 이러한 특징들로 인해 벤치마크는 LLM 훈련 개선이라는 선두 문제에 대해 접근하기 쉽고 현실적이게 만듭니다.우리는 최근의 추론 LLM들이 이미 알려진 혁신을 재구현하는 데 어려움을 겪으며, 상세한 힌트가 주어져도 최신 기술(SoTA) 스캐폴딩과 결합했을 때도 마찬가지임을 발견했습니다. 따라서 우리의 벤치마크는 과학적 재현을 자동화하는 LLM의 능력을 간단하고 포화되지 않은 측정 방법으로 제공하며, 이는 자율적인 연구 에이전트가 갖춰야 할 필수적인(하지만 충분하지 않은) 기술입니다.