13일 전

코드 라마: 코드를 위한 오픈 기반 모델

Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve
코드 라마: 코드를 위한 오픈 기반 모델
초록

우리는 Llama 2 기반의 코드 전용 대규모 언어 모델인 Code Llama를 공개합니다. 이 모델은 개방형 모델 중 최고 수준의 성능을 제공하며, 인페일링(infilling) 기능, 대규모 입력 컨텍스트 지원, 프로그래밍 작업에 대한 제로샷 지시 수행 능력을 갖추고 있습니다. 다양한 응용 분야를 커버하기 위해 다음과 같은 여러 버전을 제공합니다: 기초 모델(Code Llama), 파이썬 전용 모델(Code Llama - Python), 지시 수행 모델(Code Llama - Instruct)로, 각각 7B, 13B, 34B, 70B 파라미터 규모를 갖춥니다. 모든 모델은 16,000 토큰 길이의 시퀀스로 훈련되었으며, 최대 100,000 토큰까지의 입력에 대해 성능 향상을 보입니다. 7B, 13B, 70B 규모의 Code Llama 및 Code Llama - Instruct 버전은 주변 콘텐츠를 기반으로 한 인페일링을 지원합니다. Code Llama는 여러 코드 벤치마크에서 개방형 모델 중 최고 수준의 성능을 기록하며, HumanEval에서는 최대 67%, MBPP에서는 최대 65%의 점수를 기록했습니다. 특히 Code Llama - Python 7B는 Llama 2 70B보다 HumanEval 및 MBPP에서 더 높은 성능을 보였으며, 모든 모델이 MultiPL-E에서 공개된 다른 모든 모델보다 우수한 성능을 보였습니다. Code Llama는 연구 및 상용 사용 모두를 허용하는 유연한 라이선스 하에 공개됩니다.

코드 라마: 코드를 위한 오픈 기반 모델 | 최신 연구 논문 | HyperAI초신경