Differential Transformer(简称 Diff Transformer)是一种新型的 Transformer 架构,由微软研究院和清华大学于 2024 年共同提出,相关论文成果为「Differential Transformer」,4 位共一作者:Tianzhu Ye 、 Li Dong 、 Yuqing Xia 、 Yutao Sun 。这一架构的核心在于其差分注意力机制,旨在解决传统 Transformer 在处理长文本时难以准确检索关键信息的问题,即所谓的「中间信息丢失」现象。
Diff Transformer 通过计算两个独立的 softmax 注意力图,然后求其差值来得到最终的注意力分数,这种方法能够有效消除注意力噪声,促使模型更加关注于输入中最相关的部分。这种机制类似于电气工程中的降噪耳机和差分放大器,通过两个信号之间的差异来消除噪声。
实验结果表明,Diff Transformer 在各种设置下的语言建模任务中均优于传统 Transformer 。它不仅在模型规模和训练 token 数量方面具有可扩展性,还在长上下文建模、关键信息检索、幻觉缓解、上下文学习等实际应用中显示出显著的优势。此外,Diff Transformer 还能有效减少模型激活值中的异常值,对模型量化更友好,提高了模型的效率。
Diff Transformer 的提出,为大语言模型的发展提供了新的思路,预计将在智能对话系统、文本生成、数据提取等多个领域发挥重要作用。