1 个月前

MoEs 比你想象的更强大：基于 RoE 的超并行推理扩展

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

摘要

大型语言模型（LLMs）的生成质量通常可通过在推理阶段采用序列级缩放方法（如思维链，Chain-of-Thought）来提升。我们提出了一种互补性的框架——超并行缩放（hyper-parallel scaling），该方法在 token 级别上提升预测质量。超并行缩放通过从模型中计算并聚合单个 token 的多个输出候选，实现更精准的预测。我们将这一思想应用于混合专家模型（Mixture-of-Experts, MoE），构建了称为“专家名册”（Roster of Experts, RoE）的架构。RoE 是一种无需训练的推理算法，可将单一 MoE 模型动态转化为多个 MoE 的集成系统。RoE 在专家路由机制中引入可控的随机性，使模型能够为每个 token 采样多个多样化的专家，并聚合其输出，从而获得更准确的最终结果。为降低计算开销，我们设计了一种高效的批处理策略和专用的 KV 缓存机制，显著减少了计算与内存开销。例如，RoE 使一个 70 亿参数的 MoE 模型在推理性能上达到 105 亿参数 MoE 模型的水平，同时计算量减少 30%。这些性能提升无需对模型参数进行任何微调即可实现。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

MoEs 比你想象的更强大：基于 RoE 的超并行推理扩展

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

摘要

用 AI 构建 AI

Hyper Newsletters