12日前
CloudEval-YAML:クラウド構成生成のための実用的ベンチマーク
Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai

要約
クラウドコンピューティングの発展と大規模言語モデル(LLM)に基づくコード生成ツールの普及に伴い、クラウドネイティブアプリケーションにおけるコード生成のベンチマークが不足している状況にある。この課題に応じて、本研究ではクラウド構成生成を対象とした実用的なベンチマーク「CloudEval-YAML」を提案する。CloudEval-YAMLは、多数のクラウドネイティブツールで事実上標準となっているYAMLに焦点を当てることで、多様性の課題に取り組んでいる。本ベンチマークは実用性を重視して構築されており、実際のシナリオを想定した単体テストを備えた手書き問題から構成されたデータセットを採用している。さらに、実用性を高めるために、質問の表現を簡潔かつ要約的、かつ双語形式に再構成することで、データセットの利便性を向上させた。このデータセットには1011件の問題が含まれており、これらを人間が完了するには1200時間以上の作業時間がかかる。評価の実用性をさらに高めるために、単一マシン比で20倍の高速化を実現するスケーラブルな評価プラットフォームを構築した。現時点で知られている限り、CloudEval-YAMLデータセットはクラウドネイティブアプリケーションを対象とした最初の手書きデータセットである。本研究では12種類のLLMを詳細に評価し、タスクの課題とLLMの特性に関する深い理解を獲得するとともに、タスク性能の向上とコスト削減に効果的な手法を提示している。