클라우드에이벌-YAML: 클라우드 구성 생성을 위한 실용적 벤치마크

클라우드 컴퓨팅 생태계의 급속한 성장과 대규모 언어 모델(LLM) 기반 코드 생성 도구의 확산 속에서, 클라우드 네이티브 애플리케이션에서의 코드 생성에 대한 기준 평가(Benchmarking)는 여전히 부족한 실정이다. 이러한 요구에 부응하여 우리는 클라우드 구성 생성을 위한 실용적인 벤치마크인 CloudEval-YAML을 제안한다. CloudEval-YAML은 수많은 클라우드 네이티브 도구에서 사실상의 표준으로 자리 잡은 YAML에 초점을 맞춤으로써 다양한 구성 문제에 대한 도전을 해결한다. 본 벤치마크는 실용성을 최우선으로 개발되었으며, 실제 적용 사례를 타깃으로 한 수작업으로 작성된 문제와 단위 테스트를 포함한 데이터셋을 구성하였다. 또한 문제의 표현 방식을 간결하고 압축적이며 양국어(영문/한글)로 재구성함으로써 실용성에 부합하는 데이터셋을 더욱 강화하였다. 이 데이터셋은 총 1,011개의 문제로 구성되어 있으며, 이를 완료하는 데 1,200시간 이상의 인간 작업 시간이 소요된다. 평가 과정의 실용성을 높이기 위해, 단일 머신 대비 20배 빠른 속도를 달성하는 확장 가능한 평가 플랫폼을 구축하였다. 현재까지 알려진 바에 따르면, CloudEval-YAML 데이터셋은 클라우드 네이티브 애플리케이션을 대상으로 한 최초의 수작업 데이터셋이다. 우리는 12개의 LLM에 대한 심층적인 평가를 수행하여, 문제의 특성과 LLM의 성능에 대한 깊이 있는 이해를 도출하였으며, 작업 성능을 향상시키고 비용을 절감하는 효과적인 방법들을 제시하였다.