17 天前

面向大规模基于Transformer模型的异常值高效型Hopfield层

Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu

摘要

我们提出了一种异常值高效型现代霍普菲尔德模型（简称 $\mathrm{OutEffHop}$），并利用该模型解决基于超大规模Transformer架构模型训练中的异常值低效问题。本文的主要贡献在于构建了一种新型关联记忆模型，能够实现异常值高效型的关联记忆检索。有趣的是，该记忆模型为一种异常值高效的注意力机制（${\rm Softmax}_1$）提供了基于模型的解释：它可被视为 $\mathrm{OutEffHop}$ 记忆检索过程的一种近似。在方法论层面，这一发现使我们能够引入新型的异常值高效型霍普菲尔德层，作为传统注意力机制的强大替代方案，并在量化后展现出更优的性能表现。在理论层面，$\mathrm{OutEffHop}$ 模型在保留标准现代霍普菲尔德模型优良特性（如固定点收敛性与指数级存储容量）的基础上，进一步提升了其性能。在实验验证方面，我们在多个大规模Transformer架构与霍普菲尔德架构模型（包括 BERT、OPT、ViT 以及 STanHop-Net）上验证了所提模型的有效性，其性能与当前最先进的方法（如 $\mathtt{Clipped_Softmax}$ 与 $\mathtt{Gated_Attention}$）进行了对比。值得注意的是，$\mathrm{OutEffHop}$ 在四个模型上平均降低了超过 22% 的峰度（kurtosis），并在模型输出的最大无穷范数（infinity norm）上实现了超过 26% 的降幅。代码已开源，可访问 GitHub：\href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}；预训练模型已发布于 Hugging Face Hub：\href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}；后续更新请关注 arXiv：\href{https://arxiv.org/abs/2404.03828}{arXiv}。