Une Approche Sans Formation pour l'Extrapolation de Longueur des LLM : Interpolation Greedy des Logits d'Attention (GALI)

Les modèles de langage à grande échelle (LLM) basés sur l’architecture Transformer éprouvent des difficultés face aux entrées dépassant la fenêtre contextuelle utilisée lors de leur entraînement, en raison de problèmes de positionnement hors distribution (out-of-distribution, O.O.D.) qui perturbent le mécanisme d’attention. Les solutions existantes, qu’elles reposent sur un fine-tuning ou des méthodes sans entraînement, souffrent de limitations telles qu’une inefficacité, une interpolation redondante, des valeurs aberrantes dans les logits ou une perte d’information positionnelle locale. Nous proposons GALI (Greedy Attention Logit Interpolation), une méthode sans entraînement qui améliore l’extrapolation de longueur en réutilisant de manière gloutonne des intervalles positionnels préentraînés et en interpolant les logits d’attention afin d’éliminer les valeurs aberrantes. GALI atteint des performances stables et supérieures sur une large gamme de tâches à contexte long, sans nécessiter de réglage spécifique en fonction de la longueur d’entrée. Une analyse approfondie révèle que les LLM interprètent les intervalles positionnels de manière inégale, et que limiter l’interpolation à des plages plus étroites améliore les performances, même sur des tâches à contexte court. GALI constitue une avancée vers un traitement de textes longs plus robuste et généralisable dans les LLM. Notre implémentation de GALI, ainsi que les expérimentations décrites dans notre article, sont disponibles en open source à l’adresse suivante : https://github.com/adlnlp/Gali.