Command Palette
Search for a command to run...

摘要
我们提出虚拟宽度网络(Virtual Width Networks, VWN),这是一种能够在不带来隐藏层尺寸增加所导致的二次计算开销的前提下,实现更宽表征优势的框架。VWN将表征宽度与主干网络宽度解耦,在扩展嵌入空间的同时,使主干网络的计算量几乎保持不变。在大规模实验中,当嵌入空间扩大8倍时,VWN使下一标记预测的优化速度提升超过2倍,下一两个标记预测的优化速度提升超过3倍。随着训练过程的推进,VWN的优势进一步放大:损失差距持续扩大,收敛加速比也随之提高,表明VWN不仅具备出色的标记效率,而且在模型规模扩大时表现出更强的效能。此外,我们发现虚拟宽度与损失降低之间存在近似线性对数关系,为探索虚拟宽度缩放作为大模型效率的新维度提供了初步的实证依据与理论动机。