Command Palette

Search for a command to run...

1 个月前

MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展

摘要

大型语言模型(LLMs)的生成质量通常可通过在推理阶段采用序列级缩放方法(如思维链,Chain-of-Thought)来提升。我们提出了一种互补性的框架——超并行缩放(hyper-parallel scaling),该方法在 token 级别上提升预测质量。超并行缩放通过从模型中计算并聚合单个 token 的多个输出候选,实现更精准的预测。我们将这一思想应用于混合专家模型(Mixture-of-Experts, MoE),构建了称为“专家名册”(Roster of Experts, RoE)的架构。RoE 是一种无需训练的推理算法,可将单一 MoE 模型动态转化为多个 MoE 的集成系统。RoE 在专家路由机制中引入可控的随机性,使模型能够为每个 token 采样多个多样化的专家,并聚合其输出,从而获得更准确的最终结果。为降低计算开销,我们设计了一种高效的批处理策略和专用的 KV 缓存机制,显著减少了计算与内存开销。例如,RoE 使一个 70 亿参数的 MoE 模型在推理性能上达到 105 亿参数 MoE 模型的水平,同时计算量减少 30%。这些性能提升无需对模型参数进行任何微调即可实现。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展 | 论文 | HyperAI超神经