RES-Q : Évaluation des systèmes de modèles linguistiques à grande échelle pour la modification de code à l’échelle du dépôt

La capacité des grands modèles linguistiques (LLM) à suivre des instructions a permis de développer une nouvelle génération de systèmes fondés sur les LLM, capables de s'attaquer à des tâches complexes telles que la modification de grandes bases de code. En raison de la grande sensibilité et de l'imprévisibilité du comportement des LLM face à des variations dans les instructions, des outils d'évaluation robustes sont essentiels pour guider l'évolution future de ces systèmes. Nous proposons RES-Q, un benchmark basé sur des instructions en langage naturel pour évaluer les systèmes de modification de dépôts (repository editing systems), composé de 100 tâches de modification de dépôts soigneusement conçues à partir de commits réels sur GitHub. Étant donné une instruction d'édition et un dépôt de code, RES-Q évalue la capacité d'un système LLM à interpréter l'instruction, à naviguer dans le dépôt afin de recueillir les informations pertinentes, et à générer une modification appropriée répondant aux critères spécifiés. Nous soutenons que cette approche d'évaluation permet de surmonter les limites des benchmarks traditionnels et offre une évaluation plus globale des capacités d'un modèle. Nous évaluons divers LLM d'avant-garde en tant qu'agents linguistiques dans un système de modification de dépôts basé sur Qurrent OS, notre logiciel de développement d'agents linguistiques. Malgré une différence de seulement 1 % en termes de performance pass@1 sur HumanEval, nous constatons que Claude Sonnet 3.5 surpasse GPT-4o de 12 % en pass@1 sur RES-Q, ce qui démontre la capacité de RES-Q à distinguer les performances des modèles, même lorsque les benchmarks traditionnels atteignent un plateau. Nous explorons également l'efficacité en termes de tokens, les corrélations de performance avec les benchmarks existants, ainsi que des écarts intéressants entre les LLM fermés et open-source. Le code et les données sont disponibles à l'adresse suivante : https://github.com/Qurrent-AI/RES-Q.