17 天前

面向大规模基于Transformer模型的异常值高效型Hopfield层

Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu
面向大规模基于Transformer模型的异常值高效型Hopfield层
摘要

我们提出了一种异常值高效型现代霍普菲尔德模型(简称 $\mathrm{OutEffHop}$),并利用该模型解决基于超大规模Transformer架构模型训练中的异常值低效问题。本文的主要贡献在于构建了一种新型关联记忆模型,能够实现异常值高效型的关联记忆检索。有趣的是,该记忆模型为一种异常值高效的注意力机制(${\rm Softmax}_1$)提供了基于模型的解释:它可被视为 $\mathrm{OutEffHop}$ 记忆检索过程的一种近似。在方法论层面,这一发现使我们能够引入新型的异常值高效型霍普菲尔德层,作为传统注意力机制的强大替代方案,并在量化后展现出更优的性能表现。在理论层面,$\mathrm{OutEffHop}$ 模型在保留标准现代霍普菲尔德模型优良特性(如固定点收敛性与指数级存储容量)的基础上,进一步提升了其性能。在实验验证方面,我们在多个大规模Transformer架构与霍普菲尔德架构模型(包括 BERT、OPT、ViT 以及 STanHop-Net)上验证了所提模型的有效性,其性能与当前最先进的方法(如 $\mathtt{Clipped_Softmax}$ 与 $\mathtt{Gated_Attention}$)进行了对比。值得注意的是,$\mathrm{OutEffHop}$ 在四个模型上平均降低了超过 22% 的峰度(kurtosis),并在模型输出的最大无穷范数(infinity norm)上实现了超过 26% 的降幅。代码已开源,可访问 GitHub:\href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub};预训练模型已发布于 Hugging Face Hub:\href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub};后续更新请关注 arXiv:\href{https://arxiv.org/abs/2404.03828}{arXiv}。