HyperAIHyperAI

Command Palette

Search for a command to run...

CloudEval-YAML: Ein praktischer Benchmark für die Generierung von Cloud-Konfigurationen

Zusammenfassung

Inmitten des florierenden Ökosystems von Cloud-Computing und der rasanten Verbreitung von Code-Generierungstools basierend auf großen Sprachmodellen (Large Language Models, LLMs) besteht ein Mangel an Benchmarks für die Codegenerierung in cloud-nativen Anwendungen. Um diesem Bedarf zu begegnen, präsentieren wir CloudEval-YAML, einen praktikablen Benchmark zur Generierung von Cloud-Konfigurationen. CloudEval-YAML adressiert die Herausforderung der Vielfalt, indem es sich auf YAML konzentriert, den de-facto-Standard zahlreicher cloud-nativer Tools. Der CloudEval-YAML-Benchmark wurde mit praktischer Relevanz im Fokus entwickelt: Das Datenset besteht aus handgeschriebenen Aufgaben mit Unit-Tests, die realistische Anwendungsszenarien abdecken. Um die praktische Brauchbarkeit weiter zu erhöhen, haben wir die Aufgabenformulierungen präzise, knapp und mehrsprachig umformuliert. Das Datenset umfasst insgesamt 1011 Aufgaben, die mehr als 1200 menschliche Arbeitsstunden erfordern. Um die praktische Durchführbarkeit bei der Evaluation zu verbessern, haben wir eine skalierbare Evaluationsplattform für CloudEval-YAML entwickelt, die eine 20-fache Beschleunigung gegenüber einer einzelnen Maschine erreicht. Soweit uns bekannt ist, ist CloudEval-YAML das erste handgeschriebene Datenset, das speziell auf cloud-nativen Anwendungen ausgerichtet ist. Wir führen eine detaillierte Evaluation von 12 LLMs durch, wodurch ein tieferes Verständnis der bestehenden Probleme sowie der LLMs erreicht wird, sowie wir wirksame Methoden zur Verbesserung der Task-Performance und zur Kostenreduktion identifizieren können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp