vor 13 Tagen

Code Llama: Offene Grundmodelle für Code

Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve

Details der Forschungsarbeit anzeigen

Code Llama: Offene Grundmodelle für Code

Abstract

Wir stellen Code Llama vor, eine Familie großer Sprachmodelle für Code, die auf Llama 2 basieren und unter den offenen Modellen die derzeit beste Leistung erzielen. Code Llama verfügt über Fähigkeiten zum Infilling, unterstützt große Eingabekontexte und weist eine null-Schritt-Fähigkeit zum Folgen von Anweisungen für Programmieraufgaben auf. Wir bieten verschiedene Varianten an, um ein breites Spektrum an Anwendungen abzudecken: Grundmodelle (Code Llama), Spezialisierungen für Python (Code Llama – Python) sowie Anweisungsfolge-Modelle (Code Llama – Instruct), jeweils mit 7B, 13B, 34B und 70B Parametern. Alle Modelle wurden auf Sequenzen von bis zu 16.000 Token trainiert und zeigen Verbesserungen auch bei Eingaben mit bis zu 100.000 Token. Die Varianten 7B, 13B und 70B von Code Llama sowie Code Llama – Instruct unterstützen das Infilling basierend auf der umgebenden Kontextinformation. Code Llama erreicht unter den offenen Modellen die derzeit beste Leistung in mehreren Code-Benchmarks, mit Werten von bis zu 67 % und 65 % auf HumanEval und MBPP. Insbesondere übertrifft Code Llama – Python 7B das Llama 2 70B auf HumanEval und MBPP, und alle unsere Modelle schlagen jedes andere öffentlich verfügbare Modell auf MultiPL-E. Code Llama wird unter einer stark erlaubnisfreien Lizenz veröffentlicht, die sowohl Forschungs- als auch kommerzielle Nutzung zulässt.