HyperAI超神経
Back to Headlines

ByteDance、6兆トークンで学習したコード専門のLLM「Seed-Coder」を公開:人間の介入を最小限に抑えたモデル中心のデータパイプラインで高パフォーマンスを実現

1日前

ByteDance Research team introduces Seed-Coder: A highly efficient and scalable family of open-source code-focused LLMs バイトダンスの研究チームが、 Seed-Coderという新しい家族のオープンソースの言語モデル(LLM)を発表しました。このモデルは、コーディングタスクに特化しており、手動でのデータキュレーションに頼らず、大規模なコードデータから学習することで効率を最大化しています。 従来のオープンソースモデルでは、コードデータのフィルタリングに手作業や専門家によるルール設定が求められていましたが、これらの方法は時間のかかる上にバイアスが生じやすく、言語間での拡張が難しいという問題がありました。一方、Claude 3.7やOpenAI o3のような専有モデルはコーディングタスクで優れたパフォーマンスを示していますが、データの詳細については公開していないのが現状です。DeepSeekやQwen2.5のようなオープンソースモデルも依然として人間によって設計されたフィルターに大きく依存していますが、これは限られた成果しかもたらさないと指摘されています。「The Bitter Lesson」が示すように、実際の革新はスケーラブルでデータ主導的方法から生まれるのです。 Seed-Coderは、8Bのサイズを持つ3つのモデル(Base、Instruction、Reasoning)で構成されています。これらのモデルは、GitHubや関連ウェブサイトから入手した約6兆トークンのコーディングデータを大規模な言語モデルで評価・フィルタリングして得た高品質なデータセットから学習します。初段階では、基本的なシンタックスエラーや不適切なコンテンツを含むファイルが自動で除去されます。その後、LLMたちが残りのコードを評価し、高品質なデータだけを選別します。プリトレーニングは2段階で行われ、まずコアのコードとウェブデータで学習し、次にレポジトリ全体や長いコンテキストを扱う複雑な構造でさらなる能力強化が行われます。 ポストトレーニングでは、Seed-Coderが人間の指示をよりよく理解し、従うために、多様な合成指示データ上で監視学習で微調整される Instruction モデルと、Long-Chain-of-Thought 強化学習を通じてステップごとの論理的理解力が高まる Reasoning モデルがあります。これらの最適化により、Seed-Coderはコード生成、完成、編集、および理由付けなどのさまざまなタスクにおいてトップクラスの性能を発揮しています。 評価結果では、Seed-Coderの各モデルが異なるコーディングタスクで優れた成績を残しています。Baseモデルは HumanEval や MultiPL-E などのベンチマークで同規模の他のオープンソースモデルを上回り、コード生成能力では特筆すべき業績を達成しています。Instructモデルは CodeEditorBench と FullStack などの評価で優れた指示従順性とコード編集能力を示しており、Reasoningモデルは LiveCodeBench と Codeforces といった難易度の高いタスクで優秀な多段階の問題解決スキルを発揮しています。特にこのモデルは、同程度以上の規模を持つ他のモデルを上回ることがあります。 業界からの反応と会社概要 「Seed-Coderの登場は、コーディング向け言語モデルの開発において重要な飛躍をもたらすものと考えています。これらのモデルは、人間の介入を最小限に抑えることで大きな可能性を開くでしょう」と、某メジャーテック企業のAI担当者は述べています。バイトダンスは、世界最大級のショートビデオプラットフォームであるTikTokの親会社であり、AI技術の進歩に大きな貢献をおこなっています。Seed-Coderの公開は、これからの研究と開発の促進を目的としています。

Related Links