3 个月前

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang

摘要

我们提出虚拟宽度网络（Virtual Width Networks, VWN），这是一种能够在不带来隐藏层尺寸增加所导致的二次计算开销的前提下，实现更宽表征优势的框架。VWN将表征宽度与主干网络宽度解耦，在扩展嵌入空间的同时，使主干网络的计算量几乎保持不变。在大规模实验中，当嵌入空间扩大8倍时，VWN使下一标记预测的优化速度提升超过2倍，下一两个标记预测的优化速度提升超过3倍。随着训练过程的推进，VWN的优势进一步放大：损失差距持续扩大，收敛加速比也随之提高，表明VWN不仅具备出色的标记效率，而且在模型规模扩大时表现出更强的效能。此外，我们发现虚拟宽度与损失降低之间存在近似线性对数关系，为探索虚拟宽度缩放作为大模型效率的新维度提供了初步的实证依据与理论动机。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang

摘要

我们提出虚拟宽度网络（Virtual Width Networks, VWN），这是一种能够在不带来隐藏层尺寸增加所导致的二次计算开销的前提下，实现更宽表征优势的框架。VWN将表征宽度与主干网络宽度解耦，在扩展嵌入空间的同时，使主干网络的计算量几乎保持不变。在大规模实验中，当嵌入空间扩大8倍时，VWN使下一标记预测的优化速度提升超过2倍，下一两个标记预测的优化速度提升超过3倍。随着训练过程的推进，VWN的优势进一步放大：损失差距持续扩大，收敛加速比也随之提高，表明VWN不仅具备出色的标记效率，而且在模型规模扩大时表现出更强的效能。此外，我们发现虚拟宽度与损失降低之间存在近似线性对数关系，为探索虚拟宽度缩放作为大模型效率的新维度提供了初步的实证依据与理论动机。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供