17 天前
多分支注意力Transformer
Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li, Tie-Yan Liu

摘要
尽管多分支架构是计算机视觉任务取得成功的关键因素之一,但在自然语言处理领域,尤其是序列学习任务中,该架构尚未得到充分研究。本文提出了一种简单而有效的Transformer变体——多分支注意力Transformer(简称MAT),其注意力层由多个分支的平均值构成,每个分支均为独立的多头注意力层。为增强训练稳定性,我们引入两种训练技巧:Drop-Branch策略,即在训练过程中随机丢弃部分分支;以及近端初始化(proximal initialization),利用预训练的Transformer模型来初始化多个分支。在机器翻译、代码生成和自然语言理解等多项任务上的实验结果表明,这种简化的Transformer变体能够带来显著的性能提升。相关代码已开源,地址为:\url{https://github.com/HA-Transformer}。