17 天前

Hyena 层次结构:迈向更大的卷积语言模型

Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré
Hyena 层次结构:迈向更大的卷积语言模型
摘要

近年来,深度学习的进展在很大程度上依赖于大规模Transformer模型,因其具备可扩展的建模能力。然而,Transformer的核心组件——注意力机制(attention operator)在序列长度上具有二次方复杂度,限制了可访问上下文的规模。现有基于低秩近似和稀疏近似的亚二次方法虽能降低计算开销,但仍需与密集注意力层结合才能达到Transformer的性能,暴露出能力上的差距。在本工作中,我们提出Hyena,一种亚二次的注意力机制替代方案。Hyena通过交错使用隐式参数化的长卷积(long convolutions)与数据驱动的门控机制(data-controlled gating),构建出无需修改架构即可直接替换注意力模块的新型算子。在包含数千至数十万标记的序列上进行记忆与推理任务时,Hyena在准确率上相较依赖状态空间模型及其他隐式或显式方法的算子提升了超过50个百分点,性能达到与基于注意力机制模型相当的水平。在标准语言建模数据集(WikiText103 和 The Pile)上,Hyena实现了无需密集注意力机制架构的新SOTA(state-of-the-art)表现,在序列长度为2K时,仅需减少20%的训练计算量即可达到Transformer级别的性能。此外,当序列长度为8K时,Hyena的计算速度是高度优化注意力机制的两倍;在序列长度达64K时,速度更是快了100倍。

Hyena 层次结构:迈向更大的卷积语言模型 | 最新论文 | HyperAI超神经