HyperAIHyperAI

Command Palette

Search for a command to run...

CloudEval-YAML : Un benchmark pratique pour la génération de configurations cloud

Résumé

Dans l’écosystème florissant du cloud computing et face à la prolifération des outils de génération de code basés sur les grands modèles linguistiques (LLM), il existe un manque de benchmarks pour la génération de code dans les applications cloud-native. En réponse à ce besoin, nous présentons CloudEval-YAML, un benchmark pratique destiné à la génération de configurations cloud. CloudEval-YAML aborde le défi de la diversité en se concentrant sur le format YAML, standard de facto utilisé par de nombreux outils cloud-native. Nous avons conçu le benchmark CloudEval-YAML en gardant à l’esprit la praticité : le jeu de données est composé de problèmes rédigés à la main, accompagnés de tests unitaires ciblant des scénarios réels. Nous avons enrichi davantage ce jeu de données afin de répondre aux besoins pratiques en reformulant les questions de manière concise, abrégée et bilingue. Ce jeu de données comprend 1 011 problèmes, dont la résolution nécessite plus de 1 200 heures humaines. Pour améliorer la praticité de l’évaluation, nous avons développé une plateforme d’évaluation évolutive permettant un gain de vitesse de 20 fois par rapport à une seule machine. À notre connaissance, le jeu de données CloudEval-YAML est le premier ensemble de données rédigé à la main spécifiquement conçu pour les applications cloud-native. Nous présentons une évaluation approfondie de 12 modèles LLM, permettant une meilleure compréhension des défis rencontrés ainsi que des performances des modèles, et proposons des méthodes efficaces pour améliorer les résultats tout en réduisant les coûts.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp