il y a un mois

SWE-Perf : Les modèles de langage peuvent-ils optimiser les performances du code dans des dépôts réels ?

Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma

Résumé

L'optimisation des performances du code est primordiale dans le génie logiciel réel et cruciale pour les systèmes de niveau de production. Bien que les grands modèles linguistiques (LLMs) aient démontré des capacités impressionnantes en génération de code et en correction de bugs, leur compétence pour améliorer les performances du code au niveau du dépôt reste largement inexplorée. Pour combler cette lacune, nous présentons SWE-Perf, la première référence conçue spécifiquement pour évaluer de manière systématique les LLMs sur des tâches d'optimisation des performances du code dans des contextes de dépôts authentiques. SWE-Perf comprend 140 instances soigneusement sélectionnées, chacune étant issue de demandes de fusion (pull requests) visant à améliorer les performances provenant de dépôts GitHub populaires. Chaque instance de référence inclut la base de code pertinente, les fonctions cibles, les tests liés aux performances, les correctifs rédigés par des experts et les environnements exécutables. Grâce à une évaluation exhaustive des méthodes représentatives couvrant les approches au niveau du fichier et du dépôt (par exemple, Agentless et OpenHands), nous mettons en lumière un important écart de capacité entre les LLMs existants et les performances d'optimisation d'expert, soulignant ainsi des opportunités de recherche critiques dans ce domaine émergent.