HyperAIHyperAI

Command Palette

Search for a command to run...

エムベッディングのスケーリングは、言語モデルにおいてエキスパートのスケーリングを上回る

Abstract

Mixture-of-Experts(MoE)アーキテクチャは、大規模言語モデルにおけるスパース性スケーリングの標準として定着しているが、その性能向上は徐々に限界に達し、システムレベルのボトルネックも顕在化している。本研究では、スパース性のスケーリングにおいて、エムベディングスケーリングが有効かつ直交的な次元として機能しうることを検討する。包括的な分析と実験を通じて、エキスパートスケーリングと比較して、エムベディングスケーリングがより優れたパレート前線を達成する特定の運用領域を同定した。さらに、パラメータ予算の配分からモデルの幅(width)と深さ(depth)との相互作用に至るまで、この効果を左右する重要なアーキテクチャ的要因を体系的に解明した。また、特化したシステム最適化と予測的デコード(speculative decoding)を統合することで、このスパース性を実際の推論速度向上に効果的に変換した。これらの知見を基に、68.5Bパラメータのモデル「LongCat-Flash-Lite」を、初から訓練した。同モデルは、エムベディングに30B以上を割り当てているにもかかわらず、パラメータ数が同等のMoEベースラインを上回るだけでなく、同規模の既存モデルと比較しても、特にエージェント系タスクおよびコード生成分野において優れた性能を示した。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています