vor 15 Tagen

Ein trainingsfreier Ansatz zur Längenextrapolation für LLMs: Greedy Attention Logit Interpolation (GALI)

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren

Abstract

Transformers-basierte große Sprachmodelle (LLMs) haben Schwierigkeiten mit Eingaben, die ihren trainierten Kontextfenster überschreiten, da positionsbasierte Out-of-Distribution-(O.O.D.)-Probleme die Aufmerksamkeit stören. Bestehende Lösungen, darunter Fine-Tuning und trainingsfreie Methoden, stoßen auf Herausforderungen wie Ineffizienz, redundante Interpolation, Logit-Ausreißer oder Verlust lokaler Positionsinformation. Wir stellen GALI (Greedy Attention Logit Interpolation), eine trainingsfreie Methode, vor, die die Extrapolation der Eingabelänge verbessert, indem sie vortrainierte Positionsintervalle gezielt wieder verwendet und die Aufmerksamkeitslogits interpoliert, um Ausreißer zu eliminieren. GALI erzielt stabile und überlegene Leistung über eine breite Palette langer Kontextaufgaben hinweg, ohne eine auf die Eingabelänge zugeschnittene Abstimmung zu erfordern. Unsere Analyse zeigt weiterhin, dass LLMs Positionsintervalle ungleichmäßig interpretieren, und dass die Beschränkung der Interpolation auf engere Bereiche selbst bei kurzen Kontextaufgaben die Leistung verbessert. GALI markiert einen Schritt hin zu robusterer und allgemeiner anwendbarer Verarbeitung langer Texte in LLMs. Die Implementierung von GALI sowie die Experimente aus unserer Arbeit sind unter https://github.com/adlnlp/Gali öffentlich zugänglich.