10 天前

信息路径假说：Transformer 是动态自集成模型

Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian

摘要

Transformer模型采用密集的自注意力机制，赋予其在长距离依赖建模方面极强的灵活性。在深度Transformer的多层结构中，可能的连接模式数量呈指数级增长。然而，其中仅有极少数对网络性能有实际贡献，更少部分是不可或缺的。我们假设，在Transformer内部存在一些稀疏连接的子网络，称为信息通路（information pathways），这些通路可以独立进行训练。然而，这些通路具有动态性（即依赖于输入），这使得在训练过程中难以对密集自注意力机制进行有效剪枝。尽管如此，这些通路的整体分布通常具有可预测性。基于这一观察，我们提出了一种通用的训练策略——随机子采样自注意力（Stochastically Subsampled Attention, SSA）：该方法在训练阶段可将自注意力机制的内存占用和计算成本降低4至8倍，同时兼具正则化效果，从而提升模型在密集训练下的泛化能力。我们进一步证明，网络内部通过子采样通路可构建一个子模型集成（ensemble of sub-models），其性能优于对应的密集注意力模型。我们在多种自然语言处理、计算机视觉以及图学习任务中，涵盖生成式与判别式设置，进行了广泛实验，为上述主张提供了充分的实证支持，充分验证了所提方法的有效性。