10 天前
信息路径假说:Transformer 是动态自集成模型
Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian

摘要
Transformer模型采用密集的自注意力机制,赋予其在长距离依赖建模方面极强的灵活性。在深度Transformer的多层结构中,可能的连接模式数量呈指数级增长。然而,其中仅有极少数对网络性能有实际贡献,更少部分是不可或缺的。我们假设,在Transformer内部存在一些稀疏连接的子网络,称为信息通路(information pathways),这些通路可以独立进行训练。然而,这些通路具有动态性(即依赖于输入),这使得在训练过程中难以对密集自注意力机制进行有效剪枝。尽管如此,这些通路的整体分布通常具有可预测性。基于这一观察,我们提出了一种通用的训练策略——随机子采样自注意力(Stochastically Subsampled Attention, SSA):该方法在训练阶段可将自注意力机制的内存占用和计算成本降低4至8倍,同时兼具正则化效果,从而提升模型在密集训练下的泛化能力。我们进一步证明,网络内部通过子采样通路可构建一个子模型集成(ensemble of sub-models),其性能优于对应的密集注意力模型。我们在多种自然语言处理、计算机视觉以及图学习任务中,涵盖生成式与判别式设置,进行了广泛实验,为上述主张提供了充分的实证支持,充分验证了所提方法的有效性。