17 天前

PartialFormer:通过建模部分而非整体进行机器翻译

Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu
PartialFormer:通过建模部分而非整体进行机器翻译
摘要

Transformer中的前馈神经网络(Feed-Forward Neural Networks, FFNs)的设计选择导致了显著的计算开销和参数冗余。在本工作中,我们强调了隐藏层维度在设计轻量化FFN中的重要性,这一因素在以往的架构中常被忽视。基于这一原则,我们提出了PartialFormer——一种参数高效的Transformer架构,通过采用多个较小的FFN模块,在保持关键隐藏维度的同时,有效降低参数量与计算复杂度。这些小型FFN模块被整合进多头注意力机制中,实现高效协同。此外,我们提出了一种定制化的头缩放策略,以进一步提升PartialFormer的性能。同时,我们引入了一种类残差注意力计算方式,以增强PartialFormer在深度扩展方面的表现。在9项机器翻译任务和1项摘要生成任务上的大量实验表明,所提出的PartialFormer在机器翻译与文本摘要任务中均展现出卓越的有效性。相关代码将公开于:https://github.com/zhengkid/PartialFormer。