11 天前

一种无需训练的 LLM 长度外推方法：贪心注意力逻辑插值（GALI）

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren

摘要

基于Transformer的大型语言模型（LLMs）在处理超出其训练时上下文窗口长度的输入时，会因位置信息的分布外（Out-of-Distribution, O.O.D.）问题而出现注意力机制紊乱，导致性能显著下降。现有的解决方案，包括微调方法和无需训练的方法，普遍存在效率低下、冗余插值、逻辑输出异常（logit outliers）或局部位置信息丢失等挑战。为此，我们提出了一种无需训练的方法——贪婪注意力逻辑插值（Greedy Attention Logit Interpolation, GALI），该方法通过贪婪地复用预训练模型中的位置区间，并对注意力逻辑值进行插值，有效消除异常输出，从而显著提升模型在长文本任务中的长度外推能力。GALI在多种长上下文任务中均展现出稳定且优越的性能，且无需针对不同输入长度进行特定调参。进一步分析表明，LLMs对不同位置区间的理解存在不均衡性，而将插值范围限制在更窄的区间内，甚至能在短上下文任务中带来性能提升。GALI为实现更鲁棒、更具泛化能力的长文本处理迈出了重要一步。我们已将GALI的完整实现及论文中的实验代码开源，项目地址为：https://github.com/adlnlp/Gali。