17 天前
DeLighT:深度轻量级Transformer
Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi

摘要
我们提出了一种深度且轻量级的Transformer模型——DeLighT,该模型在参数量显著减少的情况下,性能可与标准Transformer模型相当甚至更优。DeLighT通过两种方式更高效地分配参数:(1)在每个Transformer模块内部,采用一种深度且轻量的变换——DeLighT变换,优化模块内部结构;(2)在模块之间,采用分块缩放策略,使得靠近输入层的DeLighT模块更浅更窄,而靠近输出层的模块则更宽更深。总体而言,DeLighT网络的深度比标准Transformer模型高出2.5至4倍,但参数量和计算量却更少。在标准机器翻译和语言建模任务上的实验表明,DeLighT在平均参数量减少2至3倍的情况下,性能可与基线Transformer模型持平或超越。我们的源代码已开源,地址为:\url{https://github.com/sacmehta/delight}。