
Transformer 已成为自然语言处理(如机器翻译、问答系统等)领域的主流架构;然而,其高性能依赖于巨大的计算开销,这使其难以适用于对硬件资源和电池续航有严格限制的移动设备。本文提出一种高效的轻量级移动自然语言处理架构——Lite Transformer,旨在推动移动 NLP 应用在边缘设备上的部署。该架构的核心组件是长-短程注意力机制(Long-Short Range Attention, LSRA),其中一组注意力头专注于局部上下文建模(通过卷积实现),另一组则专注于远距离依赖关系建模(通过标准注意力机制实现)。这种分工协作的设计在三个主流语言任务——机器翻译、摘要生成和语言建模上均显著优于标准 Transformer 模型。在计算资源受限的场景下(500M/100M MACs),Lite Transformer 在 WMT'14 英法翻译任务上的表现分别优于标准 Transformer 1.2 和 1.7 的 BLEU 分数。相较于标准 Transformer 基础模型,Lite Transformer 将计算量降低 2.5 倍,仅带来 0.3 的 BLEU 分数下降。结合剪枝与量化技术后,Lite Transformer 的模型体积进一步压缩了 18.2 倍。在语言建模任务中,Lite Transformer 在约 500M MACs 的计算预算下,比标准 Transformer 实现了 1.8 的更低困惑度(perplexity)。尤为突出的是,在移动 NLP 场景下,Lite Transformer 在无需耗时耗力的架构搜索(该过程需超过 250 GPU 年)的前提下,性能超越基于 AutoML 的 Evolved Transformer 模型 0.5 的 BLEU 分数。相关代码已开源,地址为:https://github.com/mit-han-lab/lite-transformer。