Command Palette
Search for a command to run...

要約
我々は、すべての活性化が推論能力を向上させるという原則に基づき構築された、推論志向型の言語基盤「Ling 2.0」を紹介する。このモデルは、一貫したMixture-of-Experts(MoE)パラダイムの下で、数十亿から1兆パラメータにまでスケーリング可能であり、実証的なスケーリング則に従って、高いスパース性、スケール間の一貫性、および効率性を重視している。本シリーズには、非思考型(インストラクション型)のモデルとして、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3種類が含まれ、パラメータ数は160億から1兆にわたり、密なモデル(dense model)と比較して最大7倍のアクティブ計算効率を達成している。Ling 2.0は、モデルアーキテクチャ、事前学習、微調整、インフラの各領域において統合的な革新を実現している。具体的には、効率的な推論を可能にする高スパース性MoEとMTP(Multi-Task Prompting)、推論志向のデータセットおよび中間段階でのCoT(Chain-of-Thought)活性化、強化学習に基づく微調整(DFT、Evo-CoT)、および細粒度の異種パイプラインを用いたフルスケールFP8学習が含まれる。1兆パラメータ規模において、Ling-1Tは推論精度と計算効率の新たなパレート最適境界を確立し、適切に推論目的と整合されたスパースな活性化が、スケーラブルかつ効率的な知能の実現を可能にすることを示している。総合的に見て、Ling 2.0は、今後の推論・思考型モデルの発展を支える一貫性があり、オープンで効率的な基盤を提供しており、同基盤をもとに構築された「Ringシリーズ」の開発にも貢献している。