HyperAIHyperAI

Command Palette

Search for a command to run...

信息路径假说:Transformer 是动态自集成模型

Md Shamim Hussain Mohammed J. Zaki Dharmashankar Subramanian

摘要

Transformer模型采用密集的自注意力机制,赋予其在长距离依赖建模方面极强的灵活性。在深度Transformer的多层结构中,可能的连接模式数量呈指数级增长。然而,其中仅有极少数对网络性能有实际贡献,更少部分是不可或缺的。我们假设,在Transformer内部存在一些稀疏连接的子网络,称为信息通路(information pathways),这些通路可以独立进行训练。然而,这些通路具有动态性(即依赖于输入),这使得在训练过程中难以对密集自注意力机制进行有效剪枝。尽管如此,这些通路的整体分布通常具有可预测性。基于这一观察,我们提出了一种通用的训练策略——随机子采样自注意力(Stochastically Subsampled Attention, SSA):该方法在训练阶段可将自注意力机制的内存占用和计算成本降低4至8倍,同时兼具正则化效果,从而提升模型在密集训练下的泛化能力。我们进一步证明,网络内部通过子采样通路可构建一个子模型集成(ensemble of sub-models),其性能优于对应的密集注意力模型。我们在多种自然语言处理、计算机视觉以及图学习任务中,涵盖生成式与判别式设置,进行了广泛实验,为上述主张提供了充分的实证支持,充分验证了所提方法的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供