il y a 17 jours

Renforcer le plus court des barreaux de l’attention : améliorer la conscience du contexte des grands modèles linguistiques pour une utilisation efficace des outils

Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan

Résumé

Dans cet article, nous démontrons qu’un motif intrinsèque de forme d’onde dans l’attribution d’attention des grands modèles linguistiques (LLM) a un impact significatif sur leurs performances dans des tâches exigeant un haut degré de conscience du contexte, telles que l’utilisation des LLM pour des outils. En effet, les informations cruciales contenues dans le contexte risquent d’être négligées par le modèle lorsqu’elles se trouvent dans la zone de creux de la forme d’onde d’attention, ce qui entraîne une dégradation des performances. Pour résoudre ce problème, nous proposons une nouvelle méthode d’inférence appelée Attention Buckets. Elle permet aux LLM de traiter leurs entrées à travers plusieurs processus parallèles. Chaque processus utilise un angle de base distinct pour l’embedding de position rotatif, générant ainsi une forme d’onde d’attention unique. En compensant le creux d’attention d’un processus par un pic d’attention d’un autre processus, notre approche améliore la sensibilité du LLM aux différentes positions contextuelles, réduisant ainsi le risque de négliger des informations essentielles. Sur le plus grand benchmark d’utilisation d’outils, notre méthode permet à un modèle de 7 milliards de paramètres d’atteindre des performances de pointe, comparables à celles de GPT-4. Sur d’autres benchmarks ainsi que sur certaines tâches de RAG (Retrieval-Augmented Generation), qui exigent également une compréhension approfondie du contenu contextuel, Attention Buckets a également montré des améliorations significatives des performances.