摘要

基于Transformer的模型（如BERT）已成为自然语言处理（NLP）领域最成功的深度学习模型之一。然而，这类模型的核心局限之一在于其全注意力机制导致的序列长度上呈二次方级增长的计算开销（主要体现在内存消耗方面）。为解决这一问题，我们提出了BigBird，一种稀疏注意力机制，可将这种二次方依赖关系降低至线性复杂度。我们证明，BigBird是序列函数的通用逼近器，并具备图灵完备性，从而保留了原有全注意力模型的关键理论性质。在理论分析过程中，我们还揭示了引入 $O(1)$ 个全局令牌（如CLS）作为稀疏注意力机制的一部分所带来的若干优势。所提出的稀疏注意力机制可在相同硬件条件下处理长度达到此前最大长度8倍的序列。由于能够有效处理更长的上下文信息，BigBird在多项NLP任务中显著提升了性能，尤其在问答和文本摘要任务中表现突出。此外，我们还将该方法拓展至基因组学数据的新型应用中。