13일 전

딥시크 코더: 대규모 언어 모델이 프로그래밍과 만날 때 – 코드 지능의 부상

Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
딥시크 코더: 대규모 언어 모델이 프로그래밍과 만날 때 – 코드 지능의 부상
초록

대규모 언어 모델의 급속한 발전은 소프트웨어 개발 분야의 코드 지능을 혁신적으로 변화시켰다. 그러나 닫힌 소스 모델의 지배적인 위치로 인해 광범위한 연구 및 개발이 제한되어 왔다. 이를 해결하기 위해 우리는 1.3B에서 33B 규모까지 다양한 크기를 갖춘, 2조 토큰에 달하는 데이터셋에서 처음부터 훈련된 오픈소스 코드 모델인 DeepSeek-Coder 시리즈를 소개한다. 이 모델들은 고품질의 프로젝트 수준 코드 코퍼스를 기반으로 사전 훈련되며, 16K 창 크기를 갖춘 빈칸 채우기(-fill-in-the-blank) 작업을 통해 코드 생성 및 코드 보완 성능을 향상시킨다. 광범위한 평가를 통해 DeepSeek-Coder가 여러 벤치마크에서 오픈소스 코드 모델 중 최고 수준의 성능을 달성함은 물론, 기존의 닫힌 소스 모델인 Codex와 GPT-3.5를 초월함을 입증했다. 또한, DeepSeek-Coder 모델은 연구 목적뿐만 아니라 자유로운 상업적 이용이 허용되는 유연한 라이선스 하에 배포된다.

딥시크 코더: 대규모 언어 모델이 프로그래밍과 만날 때 – 코드 지능의 부상 | 최신 연구 논문 | HyperAI초신경