9 天前
Cluster-Former:基于聚类的稀疏Transformer用于长程依赖编码
Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu

摘要
Transformer 已成为深度学习领域中无处不在的核心架构。其成功的关键要素之一是自注意力机制(self-attention mechanism),该机制能够对输入 token 实现全连接的上下文编码。然而,尽管在建模短序列方面表现优异,自注意力机制在处理具有极端长程依赖关系的输入时仍面临挑战,因为其计算复杂度随序列长度呈二次增长。因此,通常采用滑动窗口(sliding window)的方式将长序列分块,再由 Transformer 逐块进行编码。本文提出了一种名为 Cluster-Former 的新型基于聚类的稀疏 Transformer 模型,用于在分块序列之间实现跨块注意力计算。该框架的核心由两种独特的 Transformer 层构成:滑动窗口层(Sliding-Window Layer)与 Cluster-Former 层,二者协同迭代地编码局部序列信息与全局上下文。这种新设计使得模型能够在局部窗口之外实现更广泛的信息整合,尤其适用于依赖长程依赖关系的问答(Question Answering, QA)任务。实验结果表明,Cluster-Former 在多个主流 QA 基准测试中均取得了当前最优(state-of-the-art)的性能表现。