
코드 보조는 소프트웨어 개발 과정에서 개발자의 업무를 지원하기 위해 다양한 도구, 기술 및 모델을 활용하는 것을 의미한다. 코딩 작업이 점점 더 복잡해짐에 따라 코드 보조는 개발자의 생산성을 향상시키고 오류를 줄이며 보다 효율적인 코딩 워크플로우를 가능하게 하는 핵심적인 역할을 한다. 이러한 보조 기능은 코드 자동 완성, 오류 탐지 및 수정, 코드 생성, 문서화 지원, 그리고 맥락 인식형 제안 등의 다양한 형태로 나타날 수 있다. 언어 모델은 코드 보조의 핵심 구성 요소로 부상하였으며, 개발자들이 지능형 제안을 받고 코드 스니펫을 생성하며 코딩 전반의 역량을 향상시킬 수 있도록 지원한다. 본 논문에서는 BERT, RoBERTa, ELECTRA, LUKE와 같은 사전 훈련된 언어 모델을 마리안(Causal Language Model)과 결합하여 새로운 하이브리드 코드 생성 모델을 제안한다. 이러한 모델들은 다양한 자연어 처리 작업에서 우수한 성능을 보인다는 점을 기반으로 선정되었다. 제안된 모델의 성능은 CoNaLa 및 DJANGO 두 가지 데이터셋을 대상으로 평가되었으며, 기존 최신 기술 기준 모델들과의 비교를 통해 검증되었다. 본 연구는 사전 훈련된 트랜스포머 기반 언어 모델이 복잡한 코딩 상황에서 코드 생성을 혁신할 잠재력을 탐구하고, 더 정확하고 효율적인 코드 생성을 가능하게 하는 데 목적이 있다. 또한 생성된 코드에 대한 오류 분석을 수행하고 이를 바탕으로 코드를 개선하는 과정을 포함한다. 실험 결과, 마리안 디코더와 결합된 모델들은 코드 생성의 정확도와 효율성을 크게 향상시켰다. 특히 RoBERTa-Marian 모델은 CoNaLa 데이터셋에서 최대 BLEU 점수 35.74와 정확 일치 정확도 13.8%를 기록하였으며, LUKE-Marian 모델은 DJANGO 데이터셋에서 BLEU 점수 89.34와 정확 일치 정확도 78.50%를 달성하였다. 본 연구의 구현 코드는 https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation 에서 확인할 수 있다.