
摘要
条件计算是一种流行的策略,旨在提高Transformer模型的效率。现有的方法通常针对单个模块(例如,专家混合层)或独立地跳过各层。然而,可解释性研究已经表明,Transformer模型的中间层表现出更高的冗余度,而早期层则将信息聚合到令牌位置。基于这些洞察,我们提出了一种新颖的架构,该架构能够根据输入动态地从中间向外跳过不同数量的层。具体而言,一种学习得到的门控机制会根据输入决定是否绕过中心块的对称区间,而门控注意力机制则防止后续令牌关注被跳过的令牌位置。残差归一化通过“三明治”或“每层层归一化”方案进行控制,并通过自适应正则化损失来管理门控稀疏性。我们的目标是减少对“简单”令牌的计算需求,并可能促进多级表示层次结构的出现;但在所研究的规模下,我们的方法在验证交叉熵和估计浮点运算次数之间的权衡上并未优于具有较少层数的密集基线模型。我们已将代码发布在https://github.com/tim-lawson/skip-middle。