13일 전

난류: 코드를 위한 지시 조정된 대규모 언어 모델의 체계적이고 자동화된 테스트

Shahin Honarvar, Mark van der Wilk, Alastair Donaldson

초록

우리는 코드 생성을 위한 지시 조정된 대규모 언어 모델(Large Language Models, LLMs)의 정확성과 강건성(robustness)을 체계적으로 평가하기 위한 방법을 제안하며, 새로운 벤치마크인 Turbulence를 소개한다. Turbulence는 자연어로 표현된 대량의 $\textit{질문 템플릿}$으로 구성되어 있으며, 각 템플릿은 프로그래밍 문제를 나타내며, 다양한 형태로 질문할 수 있도록 매개변수화되어 있다. 각 질문 템플릿은 LLM이 반환한 코드 솔루션이 올바른지 판단하기 위한 $\textit{테스트 오라클}$을 함께 제공한다. 따라서 하나의 질문 템플릿으로부터, 매우 유사한 프로그래밍 질문의 $\textit{이웃 지역(neighbourhood)}$을 구성하여 LLM에 제시하고, 각 질문에 대해 반환된 결과의 정확성을 평가할 수 있다. 이를 통해 LLM의 코드 생성 능력에서 발생하는 격차, 특히 이웃 지역 내 거의 모든 문제를 정확히 해결하지만 특정 매개변수 설정에서는 실패하는 $\textit{이상 현상(anomalies)}$을 식별할 수 있다. 우리는 OpenAI, Cohere, Meta 소속의 다섯 개의 LLM을 대상으로, 각 모델을 두 가지 온도 설정(temperature configuration)에서 실험하였다. 실험 결과, 전반적으로 Turbulence는 LLM의 추론 능력에 존재하는 결함을 효과적으로 드러낼 수 있음을 확인하였다. 이는 단순히 LLM이 때때로 잘못된 코드를 생성한다는 점을 지적하는 것을 넘어서는 것으로, LLM이 이웃 지역 내 일부 문제는 해결할 수 있지만 전체적인 일반화 능력이 부족한 경우를 체계적으로 식별함으로써, $\textit{강건성 문제}$를 효과적으로 드러내는 데 기여한다. 또한, LLM이 잘못된 코드를 반환할 때 발생하는 오류 유형에 대한 데이터와 사례를 제시함으로써, 이러한 오류의 본질을 더 깊이 이해할 수 있는 통찰을 제공한다.