Command Palette
Search for a command to run...

摘要
尽管混合专家(Mixture of Experts, MoE)模型通过仅激活部分参数实现了显著的计算效率,但在推理过程中仍面临高昂的内存访问开销。内存层架构(memory-layer architectures)提供了一种极具吸引力的替代方案,其内存访问次数极低,但此前的研究(如UltraMem)仅能达到双专家MoE模型的性能水平,与当前最先进的八专家配置相比存在显著差距。本文提出UltraMemV2,一种重新设计的内存层架构,成功弥合了这一性能差距。我们的方法引入了五项关键改进:将内存层集成至每个Transformer块中;采用单一线性投影简化值(value)扩展过程;借鉴PEER模型中的前馈网络(FFN)式值处理机制;实施合理的参数初始化策略;并重新平衡内存计算与FFN计算之间的比例关系。通过广泛的实验评估,我们证明,UltraMemV2在保持与八专家MoE模型相当的计算量和参数总量的前提下,实现了相当的性能表现,同时显著降低了内存访问开销。尤为突出的是,在内存密集型任务上,UltraMemV2展现出更优的性能:在长上下文记忆任务中提升1.6个百分点,在多轮记忆任务中提升6.2个百分点,在上下文学习任务中提升7.9个百分点。我们在大规模模型上验证了该方法的有效性,所测试模型的激活参数规模最高达25亿(占总参数量1200亿的2.5%),并进一步证明:激活密度对模型性能的影响,远大于稀疏参数总量本身。本研究使内存层架构首次达到与当前最优MoE模型相当的性能水平,为高效稀疏计算提供了一种极具竞争力的替代方案。