9 天前

单头注意力RNN：停止用你的大脑思考

Stephen Merity

摘要

当前语言建模领域的主流方法，无一不沉迷于我童年时期的电视节目——即“变形金刚”与“芝麻街”。从“这个Transformer”到“那个Transformer”，再到此处堆叠如篝火般密集的GPU-TPU-类脑芯片级硅基计算单元。而我们则选择了一条更为懒散、却经久验证的老路，辅以一个受密码学启发的花哨缩写：单头注意力循环神经网络（Single Headed Attention RNN，简称 SHA-RNN）。作者唯一的目标，是证明：倘若我们当年痴迷的不是如今的术语与成果，而是另一个稍有不同的缩写、稍有不同的结果，整个领域或许早已走上截然不同的发展路径。我们仅基于此前表现稳健的纯LSTM语言模型，便成功将其性能推进至与当前最先进的字节级语言模型在enwik8数据集上相差无几的水平。本研究未经历任何密集的超参数调优，全程运行于一台普通桌面电脑之上，导致作者那间位于旧金山夏季的狭小公寓变得酷热难耐。最终结果在单张GPU上仅需约24小时即可复现——毕竟作者实在等不及了。此外，该注意力机制还可轻松扩展至超长上下文，且计算开销极低。芝麻街，你输了。