HyperAIHyperAI
il y a 12 jours

CloudEval-YAML : Un benchmark pratique pour la génération de configurations cloud

Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai
CloudEval-YAML : Un benchmark pratique pour la génération de configurations cloud
Résumé

Dans l’écosystème florissant du cloud computing et face à la prolifération des outils de génération de code basés sur les grands modèles linguistiques (LLM), il existe un manque de benchmarks pour la génération de code dans les applications cloud-native. En réponse à ce besoin, nous présentons CloudEval-YAML, un benchmark pratique destiné à la génération de configurations cloud. CloudEval-YAML aborde le défi de la diversité en se concentrant sur le format YAML, standard de facto utilisé par de nombreux outils cloud-native. Nous avons conçu le benchmark CloudEval-YAML en gardant à l’esprit la praticité : le jeu de données est composé de problèmes rédigés à la main, accompagnés de tests unitaires ciblant des scénarios réels. Nous avons enrichi davantage ce jeu de données afin de répondre aux besoins pratiques en reformulant les questions de manière concise, abrégée et bilingue. Ce jeu de données comprend 1 011 problèmes, dont la résolution nécessite plus de 1 200 heures humaines. Pour améliorer la praticité de l’évaluation, nous avons développé une plateforme d’évaluation évolutive permettant un gain de vitesse de 20 fois par rapport à une seule machine. À notre connaissance, le jeu de données CloudEval-YAML est le premier ensemble de données rédigé à la main spécifiquement conçu pour les applications cloud-native. Nous présentons une évaluation approfondie de 12 modèles LLM, permettant une meilleure compréhension des défis rencontrés ainsi que des performances des modèles, et proposons des méthodes efficaces pour améliorer les résultats tout en réduisant les coûts.