13일 전

CODESIM: 시뮬레이션 기반 계획 및 디버깅을 통한 다중 에이전트 코드 생성 및 문제 해결

Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
CODESIM: 시뮬레이션 기반 계획 및 디버깅을 통한 다중 에이전트 코드 생성 및 문제 해결
초록

대규모 언어 모델(Large Language Models, LLMs)은 코드 생성 및 문제 해결 분야에서 상당한 진전을 이루었다. 기존의 접근 방식은 컴파일러나 기타 도구 기반의 런타임 피드백을 활용하여 다양한 방법으로 생성된 원시적인 프로그램을 반복적으로 디버깅하는 외부 도구 기반 반복적 디버거를 사용한다. 그러나 이러한 접근 방식의 효과성은 초기 코드 생성 품질에 크게 의존하며, 이는 여전히 해결되지 않은 도전 과제이다. 본 논문에서는 인간의 인지 방식과 유사한 접근을 통해 프로그램 합성-계획 수립, 코딩, 디버깅의 전 단계를 종합적으로 해결하는 새로운 다중 에이전트 기반 코드 생성 프레임워크인 CodeSim을 제안한다. 인간이 알고리즘의 이해도를 시각적 시뮬레이션을 통해 검증하는 것처럼, CodeSim은 입력/출력에 대한 단계별 시뮬레이션을 통해 계획 검증 및 내부 디버깅을 수행하는 고유한 방법을 갖추고 있다. 일곱 가지 도전적인 경쟁적 문제 해결 및 프로그램 합성 벤치마크에서 실시한 광범위한 실험을 통해 CodeSim의 뛰어난 코드 생성 능력이 입증되었다. 본 프레임워크는 새로운 최고 성능(SOTA, pass@1 기준)을 기록하며, HumanEval(95.1%), MBPP(90.7%), APPS(22%), CodeContests(29.1%)에서 우수한 성과를 달성하였다. 또한, 외부 디버거와 연결하여 계단식( cascaded) 적용할 경우 더욱 향상될 수 있는 잠재력도 보여주었다. 본 연구 분야의 추가적인 연구 및 개발을 촉진하기 위해, 본 프레임워크는 다음 링크를 통해 오픈소스로 공개되었다(https://kagnlp.github.io/codesim.github.io/).

CODESIM: 시뮬레이션 기반 계획 및 디버깅을 통한 다중 에이전트 코드 생성 및 문제 해결 | 최신 연구 논문 | HyperAI초신경