HyperAIHyperAI
vor 12 Tagen

CloudEval-YAML: Ein praktischer Benchmark für die Generierung von Cloud-Konfigurationen

Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai
CloudEval-YAML: Ein praktischer Benchmark für die Generierung von Cloud-Konfigurationen
Abstract

Inmitten des florierenden Ökosystems von Cloud-Computing und der rasanten Verbreitung von Code-Generierungstools basierend auf großen Sprachmodellen (Large Language Models, LLMs) besteht ein Mangel an Benchmarks für die Codegenerierung in cloud-nativen Anwendungen. Um diesem Bedarf zu begegnen, präsentieren wir CloudEval-YAML, einen praktikablen Benchmark zur Generierung von Cloud-Konfigurationen. CloudEval-YAML adressiert die Herausforderung der Vielfalt, indem es sich auf YAML konzentriert, den de-facto-Standard zahlreicher cloud-nativer Tools. Der CloudEval-YAML-Benchmark wurde mit praktischer Relevanz im Fokus entwickelt: Das Datenset besteht aus handgeschriebenen Aufgaben mit Unit-Tests, die realistische Anwendungsszenarien abdecken. Um die praktische Brauchbarkeit weiter zu erhöhen, haben wir die Aufgabenformulierungen präzise, knapp und mehrsprachig umformuliert. Das Datenset umfasst insgesamt 1011 Aufgaben, die mehr als 1200 menschliche Arbeitsstunden erfordern. Um die praktische Durchführbarkeit bei der Evaluation zu verbessern, haben wir eine skalierbare Evaluationsplattform für CloudEval-YAML entwickelt, die eine 20-fache Beschleunigung gegenüber einer einzelnen Maschine erreicht. Soweit uns bekannt ist, ist CloudEval-YAML das erste handgeschriebene Datenset, das speziell auf cloud-nativen Anwendungen ausgerichtet ist. Wir führen eine detaillierte Evaluation von 12 LLMs durch, wodurch ein tieferes Verständnis der bestehenden Probleme sowie der LLMs erreicht wird, sowie wir wirksame Methoden zur Verbesserung der Task-Performance und zur Kostenreduktion identifizieren können.

CloudEval-YAML: Ein praktischer Benchmark für die Generierung von Cloud-Konfigurationen | Neueste Forschungsarbeiten | HyperAI