HyperAIHyperAI

Command Palette

Search for a command to run...

短窗口注意力实现长期记忆化

Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou

Abstract

近期研究表明,将滑动窗口softmax注意力层与线性循环神经网络(RNN)层相结合的混合架构,在性能上优于单独使用任一架构。然而,窗口长度的影响以及softmax注意力机制与线性RNN层之间的相互作用仍缺乏深入研究。在本工作中,我们提出了SWAX,一种由滑动窗口注意力机制与xLSTM线性RNN层构成的混合架构。一个反直觉的发现是:更大的滑动窗口并未提升模型在长上下文任务中的表现。事实上,较短的窗口注意力机制促使模型更有效地训练xLSTM的长期记忆能力,因为它减少了对softmax注意力机制在长距离上下文检索中的依赖。然而,过小的滑动窗口会对短上下文任务产生不利影响,而适度增大窗口尺寸本可提供有益的信息。为此,我们采用随机变化滑动窗口大小的方式训练SWAX,迫使模型同时利用更长的上下文窗口和xLSTM的记忆能力。实验结果表明,采用随机窗口大小训练的SWAX在短上下文和长上下文任务上均显著优于传统的固定窗口注意力机制。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供