Command Palette

Search for a command to run...

9 天前

虚拟宽度网络

虚拟宽度网络

摘要

我们提出虚拟宽度网络(Virtual Width Networks, VWN),这是一种能够在不带来隐藏层尺寸增加所导致的二次计算开销的前提下,实现更宽表征优势的框架。VWN将表征宽度与主干网络宽度解耦,在扩展嵌入空间的同时,使主干网络的计算量几乎保持不变。在大规模实验中,当嵌入空间扩大8倍时,VWN使下一标记预测的优化速度提升超过2倍,下一两个标记预测的优化速度提升超过3倍。随着训练过程的推进,VWN的优势进一步放大:损失差距持续扩大,收敛加速比也随之提高,表明VWN不仅具备出色的标记效率,而且在模型规模扩大时表现出更强的效能。此外,我们发现虚拟宽度与损失降低之间存在近似线性对数关系,为探索虚拟宽度缩放作为大模型效率的新维度提供了初步的实证依据与理论动机。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
虚拟宽度网络 | 论文 | HyperAI超神经