9 天前

单头注意力RNN:停止用你的大脑思考

Stephen Merity
单头注意力RNN:停止用你的大脑思考
摘要

当前语言建模领域的主流方法,无一不沉迷于我童年时期的电视节目——即“变形金刚”与“芝麻街”。从“这个Transformer”到“那个Transformer”,再到此处堆叠如篝火般密集的GPU-TPU-类脑芯片级硅基计算单元。而我们则选择了一条更为懒散、却经久验证的老路,辅以一个受密码学启发的花哨缩写:单头注意力循环神经网络(Single Headed Attention RNN,简称 SHA-RNN)。作者唯一的目标,是证明:倘若我们当年痴迷的不是如今的术语与成果,而是另一个稍有不同的缩写、稍有不同的结果,整个领域或许早已走上截然不同的发展路径。我们仅基于此前表现稳健的纯LSTM语言模型,便成功将其性能推进至与当前最先进的字节级语言模型在enwik8数据集上相差无几的水平。本研究未经历任何密集的超参数调优,全程运行于一台普通桌面电脑之上,导致作者那间位于旧金山夏季的狭小公寓变得酷热难耐。最终结果在单张GPU上仅需约24小时即可复现——毕竟作者实在等不及了。此外,该注意力机制还可轻松扩展至超长上下文,且计算开销极低。芝麻街,你输了。