18 天前

关注MLPs

Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
关注MLPs
摘要

Transformer已成为深度学习领域最重要的架构创新之一,并在过去几年中推动了众多突破性进展。本文提出了一种基于带门控机制的多层感知机(MLP)的简单网络架构——gMLP,并证明其在关键的语言和视觉应用中能够达到与Transformer相当的性能。我们的对比实验表明,对于视觉Transformer而言,自注意力机制并非至关重要,因为gMLP同样可以实现相同的准确率。在BERT任务中,我们的模型在预训练困惑度(perplexity)方面与Transformer持平,并在部分下游自然语言处理任务中表现更优。对于gMLP性能稍逊的微调任务,通过显著增大模型规模,可以有效缩小与Transformer之间的差距。总体而言,实验结果表明,gMLP在数据量和计算资源增加时,具备与Transformer相当的可扩展性。