vor 17 Tagen

Stärkung des kürzesten Spießes im Attention: Verbesserung der Kontextbewusstheit großer Sprachmodelle zur effektiven Werkzeugnutzung

Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan

Abstract

In diesem Paper zeigen wir, dass ein inhärentes Wellenmuster im Aufmerksamkeitsverteilungsverhalten großer Sprachmodelle (Large Language Models, LLMs) deren Leistung erheblich beeinflusst, insbesondere bei Aufgaben, die ein hohes Maß an Kontextbewusstsein erfordern, wie beispielsweise die Nutzung von LLMs für Werkzeuganwendungen. Konkret kann entscheidende Information im Kontext dann übersehen werden, wenn sie sich in der Talzone des Aufmerksamkeitswellenmusters befindet, was zu einer Leistungsminderung führt. Um dieses Problem zu beheben, schlagen wir eine neuartige Inferenzmethode namens Attention Buckets vor. Diese ermöglicht es LLMs, ihre Eingaben durch mehrere parallele Verarbeitungsprozesse zu durchlaufen. Jeder Prozess nutzt einen unterschiedlichen Basiswinkel für die rotatorische Positionsembedding, wodurch jeweils ein einzigartiges Aufmerksamkeitswellenmuster entsteht. Durch die Kompensation eines Aufmerksamkeitstals eines Prozesses durch einen Aufmerksamkeitsgipfel eines anderen Prozesses erhöht unsere Methode das Kontextbewusstsein des Modells für verschiedene Positionen im Kontext und verringert somit das Risiko, kritische Informationen zu übersehen. Auf dem umfangreichsten Benchmark für Werkzeugnutzung steigert unsere Methode die Leistung eines 7B-Modells auf ein state-of-the-art-Niveau, vergleichbar mit dem von GPT-4. Auf weiteren Benchmarks sowie bestimmten RAG-Aufgaben, die ebenfalls eine umfassende Verarbeitung von Kontextinformation erfordern, zeigt Attention Buckets ebenfalls signifikante Leistungsverbesserungen.