HyperAIHyperAI

Command Palette

Search for a command to run...

Das automatisierte LLM-Speedrunning-Benchmark: Reproduktion der NanoGPT-Verbesserungen

Zusammenfassung

Schnelle Fortschritte bei großen Sprachmodellen (LLMs) bieten das Potenzial, wissenschaftlichen Fortschritt zu unterstützen. Ein entscheidendes Merkmal für dieses Unterfangen ist die Fähigkeit, bestehende Arbeiten nachzuvollziehen. Um die Fähigkeit von KI-Agenten zu bewerten, Ergebnisse in einem aktiven Forschungsbereich nachzubilden, stellen wir das Automated LLM Speedrunning Benchmark vor. Dieses Benchmark nutzt die Beiträge der Forschungsgemeinschaft beim NanoGPT-Speedrun, einem Wettbewerb zur schnellen Trainierung eines GPT-2-Modells.Jede der 19 Speedrun-Aufgaben stellt dem Agenten das Trainings-Skript der bisherigen Rekorde zur Verfügung und bietet optional eine von drei Hinweisformaten, die von Pseudocode bis hin zu papierähnlichen Beschreibungen der Verbesserungen der neuen Rekorde reichen. Die Rekorde sind durch ihre schnelle Ausführbarkeit geprägt und die Speedrun-Verbesserungen umfassen vielfältige Codeänderungen, die von hochrangigen algorithmischen Fortschritten bis hin zu hardwareorientierten Optimierungen reichen. Diese Eigenschaften machen das Benchmark sowohl zugänglich als auch realistisch für das Problem der Verbesserung der Trainierung großer Sprachmodelle.Wir stellen fest, dass kürzlich entwickelte LLMs mit state-of-the-art (SoTA) Gerüsten Schwierigkeiten haben, bereits bekannte Innovationen in unserem Benchmark neu zu implementieren, selbst wenn detaillierte Hinweise gegeben werden. Unser Benchmark bietet daher eine einfache und nicht gesättigte Messgröße für die Fähigkeit eines LLMs, wissenschaftliche Nachvollziehbarkeit zu automatisieren – eine notwendige (aber nicht ausreichende) Fertigkeit für einen autonomen Forschungsagenten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp