초록

대규모 언어 모델(Large Language Models, LLMs)은 자연어 설명을 기능성 있는 코드로 직접 변환할 수 있게 함으로써 자동화된 소프트웨어 개발을 근본적으로 변화시켰으며, 마이크로소프트의 GitHub Copilot, Anysphere의 Cursor, 바이트댄스의 Trae, 앤트로픽의 Claude Code와 같은 도구를 통해 상용화를 촉진하고 있다. 이 분야는 규칙 기반 시스템에서 Transformer 기반 아키텍처로 진화하면서, HumanEval과 같은 벤치마크에서 성능 지표를 단일 자릿수에서 95% 이상으로 크게 향상시켰다. 본 연구에서는 코드 기반 LLMs에 대한 포괄적인 종합 및 실용적 안내서(분석 및 탐색적 실험 시리즈)를 제공하며, 데이터 커리레이션부터 사후 훈련에 이르는 모델 전체 생애 주기(전훈련, 지도적 미세조정, 강화학습, 자율적 코드 작동 에이전트 등)를 체계적으로 분석한다. 일반형 LLMs(GPT-4, Claude, LLaMA)와 코드 전용 LLMs(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)의 코드 처리 능력을 비교 분석하며, 관련 기술, 설계 결정 및 상호 간의 트레이드오프를 비판적으로 검토한다. 또한 학계의 연구(예: 벤치마크 및 과제)와 실제 소프트웨어 개발 환경(예: 코드 정확성, 보안성, 대규모 코드베이스의 맥락 인식, 개발 워크플로우와의 통합 등) 사이의 연구-실무 격차를 명확히 제시하고, 전망 있는 연구 방향을 실제 요구사항과 연결하여 제시한다. 마지막으로, 코드 전훈련, 지도적 미세조정, 강화학습에 대한 종합적인 실험을 수행하여 스케일링 법칙, 프레임워크 선택, 하이퍼파라미터 민감도, 모델 아키텍처, 데이터셋 비교 등 다양한 측면을 포괄적으로 분석한다.

소스 PDF