10 天前

Subformer:一种参数量减少的Transformer

{Yutaka Matsuo, Edison Marrese-Taylor, Machel Reid}
Subformer:一种参数量减少的Transformer
摘要

Transformer的出现可被视为推动近年来自然语言处理领域诸多进展的关键驱动力。然而,尽管其在性能上取得了显著提升,如近期研究所示,该模型存在严重的参数过度配置问题,表现为参数效率低下且训练过程计算成本高昂。受预训练深度上下文词表示编码器中参数共享技术成功应用的启发,本文探索了在Transformer架构中引入参数共享的方法,特别聚焦于序列到序列任务(如机器翻译)中的编码器-解码器模型。我们对多种参数共享与压缩策略进行了系统分析,并提出了一种名为Subformer的参数高效型Transformer模型。该模型结合了新提出的“三明治式”参数共享机制与自注意力嵌入分解(Self-Attentive Embedding Factorization, SAFE)技术。在机器翻译、抽象摘要生成及语言建模等多项任务上的实验表明,Subformer即使在使用远少于标准Transformer的参数情况下,仍能实现更优性能。在WMT'14英语-德语测试集上,Subformer在参数减少40%的前提下,性能与基础版Transformer相当,甚至在部分情况下表现更优(BLEU分数提升+0.1)。此外,在仅使用比Transformer-big少40%参数的情况下,其性能与之持平;当参数减少1200万时,BLEU分数仍高出0.7。同时,Subformer在与标准Transformer-XL模型的对比中也表现优异,以减少37%参数的代价,实现了高达3.6的困惑度降低,显著提升了模型效率与性能。