17 天前
分层Transformer在语言建模中更具效率
Piotr Nawrot, Szymon Tworkowski, Michał Tyrolski, Łukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski

摘要
Transformer模型在众多自然语言处理(NLP)与序列建模任务中取得了令人瞩目的成果。尤为突出的是,Transformer能够处理长序列,从而生成连贯的长文本输出——例如GPT-3可生成完整段落,DALL-E则能生成结构严谨的图像。尽管这些大规模语言模型表现卓越,但其计算效率低下且成本高昂,严重限制了其应用范围与可及性。我们提出,具备显式分层架构是Transformer模型高效处理长序列的关键所在。为验证这一假设,我们首先系统研究了在Transformer中实现激活值下采样与上采样的多种方法,以构建具有层次结构的模型。基于性能最优的下采样与上采样模块,我们设计了名为Hourglass的分层Transformer语言模型。在计算量相同的情况下,Hourglass相较于标准Transformer基线模型表现更优,且能在更少资源消耗下达到与传统Transformer相当的性能。具体而言,Hourglass在ImageNet32图像生成任务上刷新了Transformer模型的最新性能纪录,并在广泛研究的enwik8语言建模基准上显著提升了建模效率。