Le Benchmark Automatisé de Speedrunning pour les LLM : Reproduction des Améliorations de NanoGPT

Les progrès rapides dans les grands modèles de langage (LLMs) ont le potentiel d'assister à l'avancement scientifique. Une capacité cruciale pour cette entreprise est la capacité de reproduire des travaux existants. Pour évaluer la capacité des agents d'IA à reproduire des résultats dans un domaine de recherche actif, nous introduisons le Benchmark Automatisé de Speedrunning pour les LLMs, en utilisant les contributions de la communauté de recherche sur le NanoGPT speedrun, une compétition visant à entraîner un modèle GPT-2 en temps minimal.Chacune des 19 tâches de speedrun fournit à l'agent le script d'entraînement des records précédents, éventuellement accompagné d'un des trois formats d'indices, allant du pseudo-code aux descriptions ressemblant à celles d'un article scientifique des améliorations apportées aux nouveaux records. Les records sont conçus pour s'exécuter rapidement et les améliorations de speedrun englobent divers changements au niveau du code, allant des avancées algorithmiques de haut niveau aux optimisations spécifiques au matériel. Ces caractéristiques rendent le benchmark à la fois accessible et réaliste pour le problème frontière consistant à améliorer l'entraînement des LLMs.Nous constatons que les LLMs récents combinés avec des échafaudages d'état de l'art (SoTA) peinent à réimplémenter des innovations déjà connues dans notre benchmark, même lorsqu'ils sont fournis avec des indices détaillés. Notre benchmark offre donc une mesure simple et non saturée de la capacité d'un LLM à automatiser la reproduction scientifique, une compétence nécessaire (mais non suffisante) pour un agent de recherche autonome.