HyperAIHyperAI

Command Palette

Search for a command to run...

扩展嵌入优于扩展专家在语言模型中的表现

Abstract

尽管混合专家(Mixture-of-Experts, MoE)架构已成为大规模语言模型中实现稀疏性扩展的标准方案,但其正面临收益递减和系统级瓶颈的挑战。在本工作中,我们探索将嵌入维度扩展(embedding scaling)作为一种强大且正交的稀疏性扩展维度。通过全面的分析与实验,我们识别出在特定场景下,嵌入扩展相较于专家扩展能够实现更优的帕累托前沿(Pareto frontier)。我们系统性地刻画了决定该方法有效性的关键架构因素,涵盖参数预算分配,以及与模型宽度和深度之间的相互作用。此外,通过引入定制化的系统优化技术与推测解码(speculative decoding)策略,我们成功将这种稀疏性转化为实际的推理加速效果。基于上述洞见,我们提出了 LongCat-Flash-Lite,一个从零训练的 685 亿参数模型,其中约 30 亿参数处于激活状态。尽管有超过 300 亿参数被分配至嵌入层,LongCat-Flash-Lite 不仅超越了参数量相当的 MoE 基线模型,还在同类规模模型中展现出极强的竞争力,尤其在代理任务(agentic)和代码生成(coding)领域表现突出。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供