12일 전

CodeT5+: 코드 이해 및 생성을 위한 오픈 소스 코드 대규모 언어 모델

Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi
CodeT5+: 코드 이해 및 생성을 위한 오픈 소스 코드 대규모 언어 모델
초록

대규모 언어 모델(Large Language Models, LLMs)은 방대한 소스 코드 데이터로 사전 훈련되어 코드 지능 분야에서 두드러진 성과를 거두었다. 그러나 기존의 코드용 LLMs는 아키텍처 및 사전 훈련 작업 측면에서 두 가지 주요한 한계를 가지고 있다. 첫째, 대부분의 모델은 특정 아키텍처(예: 인코더 전용 또는 디코더 전용)를 채택하거나, 다양한 후속 작업에 대해 통합된 인코더-디코더 네트워크에 의존한다. 전자의 경우, 응용에서의 유연성이 부족한 반면, 후자의 경우 모든 작업에 대해 모델을 하나의 통합 시스템으로 취급함으로써 일부 작업에 대한 성능이 최적화되지 않는 문제가 발생한다. 둘째, 기존 모델들은 후속 작업과 관련성이 낮을 수 있는 제한된 수의 사전 훈련 목표를 사용함으로써 성능 저하를 초래할 수 있다.이러한 한계를 해결하기 위해 우리는 "CodeT5+"라는 코드용 인코더-디코더 LLM 가족을 제안한다. 이 모델은 다양한 후속 코드 작업에 적합하도록 구성 모듈을 유연하게 조합할 수 있도록 설계되었으며, 사전 훈련 목표의 혼합(mixture of pretraining objectives)을 통해 사전 훈련과 미세 조정 간의 불일치를 완화한다. 제안된 사전 훈련 목표는 스팬 노이즈 제거(span denoising), 대조적 학습(contrastive learning), 텍스트-코드 매칭(text-code matching), 그리고 인과적 언어 모델링(causal LM) 사전 훈련을 포함하며, 단일 모달 및 이중 모달 다국어 코드 코퍼스에서 모두 적용된다. 또한, 우리는 사전 훈련된 오프더셀프(off-the-shelf) LLM을 고정(frozen) 상태로 초기화하여 새로 시작하여 훈련하지 않고도 모델을 효율적으로 확장하는 방안을 제안하고, 자연어 지시어와의 일치를 위해 지시어 조정(instruction-tuning)을 탐색한다.우리는 다양한 설정(영어-시트, 미세 조정, 지시어 조정)에서 20개 이상의 코드 관련 벤치마크를 통해 CodeT5+를 광범위하게 평가하였다. 그 결과, 코드 생성 및 완성, 수학 프로그래밍, 텍스트-코드 검색 등 다양한 코드 관련 작업에서 최첨단(SoTA, State-of-the-Art) 성능을 달성하였다. 특히, 지시어 조정된 CodeT5+ 16B는 다른 오픈 소스 코드 LLM들과 비교해 HumanEval 코드 생성 작업에서 새로운 최고 성능을 기록하였다.

CodeT5+: 코드 이해 및 생성을 위한 오픈 소스 코드 대규모 언어 모델 | 최신 연구 논문 | HyperAI초신경