HyperAIHyperAI

Command Palette

Search for a command to run...

Cluster-Former:基于聚类的稀疏Transformer用于长程依赖编码

Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu

摘要

Transformer 已成为深度学习领域中无处不在的核心架构。其成功的关键要素之一是自注意力机制(self-attention mechanism),该机制能够对输入 token 实现全连接的上下文编码。然而,尽管在建模短序列方面表现优异,自注意力机制在处理具有极端长程依赖关系的输入时仍面临挑战,因为其计算复杂度随序列长度呈二次增长。因此,通常采用滑动窗口(sliding window)的方式将长序列分块,再由 Transformer 逐块进行编码。本文提出了一种名为 Cluster-Former 的新型基于聚类的稀疏 Transformer 模型,用于在分块序列之间实现跨块注意力计算。该框架的核心由两种独特的 Transformer 层构成:滑动窗口层(Sliding-Window Layer)与 Cluster-Former 层,二者协同迭代地编码局部序列信息与全局上下文。这种新设计使得模型能够在局部窗口之外实现更广泛的信息整合,尤其适用于依赖长程依赖关系的问答(Question Answering, QA)任务。实验结果表明,Cluster-Former 在多个主流 QA 基准测试中均取得了当前最优(state-of-the-art)的性能表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供