13일 전
딥시크 코더: 대규모 언어 모델이 프로그래밍과 만날 때 – 코드 지능의 부상
Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

초록
대규모 언어 모델의 급속한 발전은 소프트웨어 개발 분야의 코드 지능을 혁신적으로 변화시켰다. 그러나 닫힌 소스 모델의 지배적인 위치로 인해 광범위한 연구 및 개발이 제한되어 왔다. 이를 해결하기 위해 우리는 1.3B에서 33B 규모까지 다양한 크기를 갖춘, 2조 토큰에 달하는 데이터셋에서 처음부터 훈련된 오픈소스 코드 모델인 DeepSeek-Coder 시리즈를 소개한다. 이 모델들은 고품질의 프로젝트 수준 코드 코퍼스를 기반으로 사전 훈련되며, 16K 창 크기를 갖춘 빈칸 채우기(-fill-in-the-blank) 작업을 통해 코드 생성 및 코드 보완 성능을 향상시킨다. 광범위한 평가를 통해 DeepSeek-Coder가 여러 벤치마크에서 오픈소스 코드 모델 중 최고 수준의 성능을 달성함은 물론, 기존의 닫힌 소스 모델인 Codex와 GPT-3.5를 초월함을 입증했다. 또한, DeepSeek-Coder 모델은 연구 목적뿐만 아니라 자유로운 상업적 이용이 허용되는 유연한 라이선스 하에 배포된다.