vor 13 Tagen

DeepSeek-Coder: Wenn der Large Language Model der Programmierung begegnet – Der Aufstieg der Code-Intelligenz

Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

Details der Forschungsarbeit anzeigen

DeepSeek-Coder: Wenn der Large Language Model der Programmierung begegnet – Der Aufstieg der Code-Intelligenz

Abstract

Die rasante Entwicklung großer Sprachmodelle hat die Code-Intelligenz in der Softwareentwicklung revolutioniert. Allerdings hat die Dominanz geschlossener Quellcode-Modelle die umfassende Forschung und Entwicklung eingeschränkt. Um diesem Problem entgegenzuwirken, stellen wir die DeepSeek-Coder-Serie vor – eine Reihe von Open-Source-Code-Modellen mit Größen von 1,3 B bis 33 B, die von Grund auf auf 2 Billionen Tokens trainiert wurden. Diese Modelle werden auf einer hochwertigen, projektorientierten Code-Korpus vortrainiert und nutzen eine Fill-in-the-Blank-Aufgabe mit einem Fenster von 16 K, um die Codegenerierung und Code-Nachfüllung zu verbessern. Unsere umfangreichen Evaluierungen zeigen, dass DeepSeek-Coder nicht nur führende Leistung unter Open-Source-Code-Modellen auf mehreren Benchmarks erreicht, sondern zudem bestehende geschlossene Modelle wie Codex und GPT-3.5 übertrifft. Darüber hinaus sind die DeepSeek-Coder-Modelle unter einer pro-konzessionellen Lizenz verfügbar, die sowohl forschungs- als auch uneingeschränkt kommerzielle Nutzung ermöglicht.