HyperAIHyperAI

Command Palette

Search for a command to run...

Ein trainingsfreier Ansatz zur Längenextrapolation für LLMs: Greedy Attention Logit Interpolation (GALI)

Li Yan Zhang Tianyi Li Zechuan Han Soyeon Caren

Zusammenfassung

Transformers-basierte große Sprachmodelle (LLMs) haben Schwierigkeiten mit Eingaben, die ihren trainierten Kontextfenster überschreiten, da positi­onsbasierte Out-of-Distribution-(O.O.D.)-Probleme die Aufmerksamkeit stören. Bestehende Lösungen, darunter Fine-Tuning und trainingsfreie Methoden, stoßen auf Herausforderungen wie Ineffizienz, redundante Interpolation, Logit-Ausreißer oder Verlust lokaler Positionsinformation. Wir stellen GALI (Greedy Attention Logit Interpolation), eine trainingsfreie Methode, vor, die die Extrapolation der Eingabelänge verbessert, indem sie vortrainierte Positionsintervalle gezielt wieder verwendet und die Aufmerksamkeitslogits interpoliert, um Ausreißer zu eliminieren. GALI erzielt stabile und überlegene Leistung über eine breite Palette langer Kontextaufgaben hinweg, ohne eine auf die Eingabelänge zugeschnittene Abstimmung zu erfordern. Unsere Analyse zeigt weiterhin, dass LLMs Positionsintervalle ungleichmäßig interpretieren, und dass die Beschränkung der Interpolation auf engere Bereiche selbst bei kurzen Kontextaufgaben die Leistung verbessert. GALI markiert einen Schritt hin zu robusterer und allgemeiner anwendbarer Verarbeitung langer Texte in LLMs. Die Implementierung von GALI sowie die Experimente aus unserer Arbeit sind unter https://github.com/adlnlp/Gali öffentlich zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp