9 天前
并非所有记忆都同等重要:通过过期机制实现遗忘学习
Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan

摘要
注意力机制在需要长期记忆的序列建模任务中展现了令人瞩目的成果。近期研究致力于降低保存和存储记忆所带来的计算开销。然而,并非过去的所有内容都同等重要,值得被记住。为此,我们提出 Expire-Span 方法,该方法能够学习保留最关键的信息,并主动遗忘无关信息。通过这种有选择性的记忆淘汰机制,Transformer 模型得以高效地关注数万个先前时间步的信息,而无需保存所有历史状态。我们证明,Expire-Span 能够帮助模型识别并保留关键信息,并在专门设计用于挑战记忆管理能力的强化学习任务中表现出卓越性能。进一步地,我们展示了 Expire-Span 可扩展至包含数万条记忆的规模,在极长上下文任务中取得新的技术突破,包括字符级语言建模和逐帧移动物体识别任务。最后,我们对 Expire-Span 的效率进行了系统分析,结果表明其训练速度更快,内存占用更低,相较现有方法具有显著优势。