HyperAIHyperAI

Command Palette

Search for a command to run...

关注MLPs

Hanxiao Liu Zihang Dai David R. So Quoc V. Le

摘要

Transformer已成为深度学习领域最重要的架构创新之一,并在过去几年中推动了众多突破性进展。本文提出了一种基于带门控机制的多层感知机(MLP)的简单网络架构——gMLP,并证明其在关键的语言和视觉应用中能够达到与Transformer相当的性能。我们的对比实验表明,对于视觉Transformer而言,自注意力机制并非至关重要,因为gMLP同样可以实现相同的准确率。在BERT任务中,我们的模型在预训练困惑度(perplexity)方面与Transformer持平,并在部分下游自然语言处理任务中表现更优。对于gMLP性能稍逊的微调任务,通过显著增大模型规模,可以有效缩小与Transformer之间的差距。总体而言,实验结果表明,gMLP在数据量和计算资源增加时,具备与Transformer相当的可扩展性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
关注MLPs | 论文 | HyperAI超神经