HyperAIHyperAI

Command Palette

Search for a command to run...

StarCoder 2 および The Stack v2:次世代へ

概要

BigCodeプロジェクトは、コード用大規模言語モデル(Code LLM)の責任ある開発に焦点を当てたオープンサイエンスの共同研究であり、StarCoder2を発表しました。Software Heritage(SWH)と協力して、同団体のソースコードアーカイブというデジタル共通財産を基盤に「The Stack v2」を構築しました。SWHの619種類のプログラミング言語をカバーするリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなど、高品質な他のデータソースも慎重に選定しました。その結果、初代StarCoderデータセットと比較して4倍規模のトレーニングデータセットが得られました。StarCoder2モデルは、30億(3B)、70億(7B)、150億(15B)パラメータの各バージョンを、3.3兆〜4.3兆トークンのデータ上で学習させ、包括的なCode LLMベンチマークで徹底的な評価を行いました。その結果、小規模モデルであるStarCoder2-3Bは、同規模の他のCode LLMと比較してほとんどのベンチマークで優れた性能を示し、StarCoderBase-15Bよりも優れています。また、大規模モデルであるStarCoder2-15Bは、同等規模の他のモデルと比べて顕著に優れた性能を発揮しており、サイズがそれより2倍以上大きいCodeLlama-34Bと同等またはそれを上回る結果を示しました。DeepSeekCoder-33Bは、リソースが豊富な言語におけるコード補完において最良の性能を発揮していますが、StarCoder2-15Bは数学的推論およびコード推論のベンチマーク、さらに複数のリソースが限られた言語においてもそれを上回る性能を示しました。本研究では、モデル重みをOpenRAILライセンスの下で公開し、トレーニングデータの完全な透明性を確保するため、ソースコードデータのSoftware Heritage永続識別子(SWHIDs)も公開しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています