13日前
Code Llama:コード用オープン基盤モデル
Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve

要約
コードLlamaをリリースしました。これは、Llama 2を基盤として構築されたコード専用の大規模言語モデルのファミリーであり、オープンソースモデルの中で最先端の性能を発揮するとともに、インフィリング(埋め込み)機能、大規模な入力コンテキスト対応、プログラミングタスクにおけるゼロショット指示従いの能力を備えています。さまざまな用途に対応するよう、複数のバージョンを提供しています:基礎モデル(Code Llama)、Python専用モデル(Code Llama - Python)、および指示に従うモデル(Code Llama - Instruct)の3種類を、それぞれ7B、13B、34B、70Bのパラメータ規模で用意しています。すべてのモデルは16,000トークンのシーケンスで学習されており、最大100,000トークンまでの入力に対しても性能向上が確認されています。7B、13B、70BのCode LlamaおよびCode Llama - Instructバージョンは、周囲の文脈に基づくインフィリングをサポートしています。Code Llamaは、HumanEvalおよびMBPPの複数のコードベンチマークにおいて、オープンモデルの中でも最先端の性能を達成しており、それぞれ67%および65%のスコアを記録しています。特に、Code Llama - Python 7Bは、Llama 2 70BよりもHumanEvalおよびMBPPで優れた性能を発揮し、全モデルがMultiPL-Eにおいて、他の公開されているすべてのモデルを上回っています。Code Llamaは、研究および商業利用を含む幅広い用途を許可する柔軟なライセンスのもとでリリースされています。