Command Palette
Search for a command to run...
Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

摘要
大型语言模型(LLMs)的生成质量通常可通过在推理阶段采用序列级缩放方法(如思维链,Chain-of-Thought)来提升。我们提出了一种互补性的框架——超并行缩放(hyper-parallel scaling),该方法在 token 级别上提升预测质量。超并行缩放通过从模型中计算并聚合单个 token 的多个输出候选,实现更精准的预测。我们将这一思想应用于混合专家模型(Mixture-of-Experts, MoE),构建了称为“专家名册”(Roster of Experts, RoE)的架构。RoE 是一种无需训练的推理算法,可将单一 MoE 模型动态转化为多个 MoE 的集成系统。RoE 在专家路由机制中引入可控的随机性,使模型能够为每个 token 采样多个多样化的专家,并聚合其输出,从而获得更准确的最终结果。为降低计算开销,我们设计了一种高效的批处理策略和专用的 KV 缓存机制,显著减少了计算与内存开销。例如,RoE 使一个 70 亿参数的 MoE 模型在推理性能上达到 105 亿参数 MoE 模型的水平,同时计算量减少 30%。这些性能提升无需对模型参数进行任何微调即可实现。