11 天前

一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI)

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren
一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI)
摘要

基于Transformer的大型语言模型(LLMs)在处理超出其训练时上下文窗口长度的输入时,会因位置信息的分布外(Out-of-Distribution, O.O.D.)问题而出现注意力机制紊乱,导致性能显著下降。现有的解决方案,包括微调方法和无需训练的方法,普遍存在效率低下、冗余插值、逻辑输出异常(logit outliers)或局部位置信息丢失等挑战。为此,我们提出了一种无需训练的方法——贪婪注意力逻辑插值(Greedy Attention Logit Interpolation, GALI),该方法通过贪婪地复用预训练模型中的位置区间,并对注意力逻辑值进行插值,有效消除异常输出,从而显著提升模型在长文本任务中的长度外推能力。GALI在多种长上下文任务中均展现出稳定且优越的性能,且无需针对不同输入长度进行特定调参。进一步分析表明,LLMs对不同位置区间的理解存在不均衡性,而将插值范围限制在更窄的区间内,甚至能在短上下文任务中带来性能提升。GALI为实现更鲁棒、更具泛化能力的长文本处理迈出了重要一步。我们已将GALI的完整实现及论文中的实验代码开源,项目地址为:https://github.com/adlnlp/Gali。

一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI) | 最新论文 | HyperAI超神经