HyperAIHyperAI
vor 13 Tagen

DeepSeek-Coder: Wenn der Large Language Model der Programmierung begegnet – Der Aufstieg der Code-Intelligenz

Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
DeepSeek-Coder: Wenn der Large Language Model der Programmierung begegnet – Der Aufstieg der Code-Intelligenz
Abstract

Die rasante Entwicklung großer Sprachmodelle hat die Code-Intelligenz in der Softwareentwicklung revolutioniert. Allerdings hat die Dominanz geschlossener Quellcode-Modelle die umfassende Forschung und Entwicklung eingeschränkt. Um diesem Problem entgegenzuwirken, stellen wir die DeepSeek-Coder-Serie vor – eine Reihe von Open-Source-Code-Modellen mit Größen von 1,3 B bis 33 B, die von Grund auf auf 2 Billionen Tokens trainiert wurden. Diese Modelle werden auf einer hochwertigen, projektorientierten Code-Korpus vortrainiert und nutzen eine Fill-in-the-Blank-Aufgabe mit einem Fenster von 16 K, um die Codegenerierung und Code-Nachfüllung zu verbessern. Unsere umfangreichen Evaluierungen zeigen, dass DeepSeek-Coder nicht nur führende Leistung unter Open-Source-Code-Modellen auf mehreren Benchmarks erreicht, sondern zudem bestehende geschlossene Modelle wie Codex und GPT-3.5 übertrifft. Darüber hinaus sind die DeepSeek-Coder-Modelle unter einer pro-konzessionellen Lizenz verfügbar, die sowohl forschungs- als auch uneingeschränkt kommerzielle Nutzung ermöglicht.

DeepSeek-Coder: Wenn der Large Language Model der Programmierung begegnet – Der Aufstieg der Code-Intelligenz | Neueste Forschungsarbeiten | HyperAI