Das automatisierte LLM-Speedrunning-Benchmark: Reproduktion der NanoGPT-Verbesserungen

Schnelle Fortschritte bei großen Sprachmodellen (LLMs) bieten das Potenzial, wissenschaftlichen Fortschritt zu unterstützen. Ein entscheidendes Merkmal für dieses Unterfangen ist die Fähigkeit, bestehende Arbeiten nachzuvollziehen. Um die Fähigkeit von KI-Agenten zu bewerten, Ergebnisse in einem aktiven Forschungsbereich nachzubilden, stellen wir das Automated LLM Speedrunning Benchmark vor. Dieses Benchmark nutzt die Beiträge der Forschungsgemeinschaft beim NanoGPT-Speedrun, einem Wettbewerb zur schnellen Trainierung eines GPT-2-Modells.Jede der 19 Speedrun-Aufgaben stellt dem Agenten das Trainings-Skript der bisherigen Rekorde zur Verfügung und bietet optional eine von drei Hinweisformaten, die von Pseudocode bis hin zu papierähnlichen Beschreibungen der Verbesserungen der neuen Rekorde reichen. Die Rekorde sind durch ihre schnelle Ausführbarkeit geprägt und die Speedrun-Verbesserungen umfassen vielfältige Codeänderungen, die von hochrangigen algorithmischen Fortschritten bis hin zu hardwareorientierten Optimierungen reichen. Diese Eigenschaften machen das Benchmark sowohl zugänglich als auch realistisch für das Problem der Verbesserung der Trainierung großer Sprachmodelle.Wir stellen fest, dass kürzlich entwickelte LLMs mit state-of-the-art (SoTA) Gerüsten Schwierigkeiten haben, bereits bekannte Innovationen in unserem Benchmark neu zu implementieren, selbst wenn detaillierte Hinweise gegeben werden. Unser Benchmark bietet daher eine einfache und nicht gesättigte Messgröße für die Fähigkeit eines LLMs, wissenschaftliche Nachvollziehbarkeit zu automatisieren – eine notwendige (aber nicht ausreichende) Fertigkeit für einen autonomen Forschungsagenten.