HyperAIHyperAI

Command Palette

Search for a command to run...

Stärkung des kürzesten Spießes im Attention: Verbesserung der Kontextbewusstheit großer Sprachmodelle zur effektiven Werkzeugnutzung

Yuhan Chen Ang Lv Ting-En Lin Changyu Chen Yuchuan Wu Fei Huang Yongbin Li Rui Yan

Zusammenfassung

In diesem Paper zeigen wir, dass ein inhärentes Wellenmuster im Aufmerksamkeitsverteilungsverhalten großer Sprachmodelle (Large Language Models, LLMs) deren Leistung erheblich beeinflusst, insbesondere bei Aufgaben, die ein hohes Maß an Kontextbewusstsein erfordern, wie beispielsweise die Nutzung von LLMs für Werkzeuganwendungen. Konkret kann entscheidende Information im Kontext dann übersehen werden, wenn sie sich in der Talzone des Aufmerksamkeitswellenmusters befindet, was zu einer Leistungsminderung führt. Um dieses Problem zu beheben, schlagen wir eine neuartige Inferenzmethode namens Attention Buckets vor. Diese ermöglicht es LLMs, ihre Eingaben durch mehrere parallele Verarbeitungsprozesse zu durchlaufen. Jeder Prozess nutzt einen unterschiedlichen Basiswinkel für die rotatorische Positionsembedding, wodurch jeweils ein einzigartiges Aufmerksamkeitswellenmuster entsteht. Durch die Kompensation eines Aufmerksamkeitstals eines Prozesses durch einen Aufmerksamkeitsgipfel eines anderen Prozesses erhöht unsere Methode das Kontextbewusstsein des Modells für verschiedene Positionen im Kontext und verringert somit das Risiko, kritische Informationen zu übersehen. Auf dem umfangreichsten Benchmark für Werkzeugnutzung steigert unsere Methode die Leistung eines 7B-Modells auf ein state-of-the-art-Niveau, vergleichbar mit dem von GPT-4. Auf weiteren Benchmarks sowie bestimmten RAG-Aufgaben, die ebenfalls eine umfassende Verarbeitung von Kontextinformation erfordern, zeigt Attention Buckets ebenfalls signifikante Leistungsverbesserungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Stärkung des kürzesten Spießes im Attention: Verbesserung der Kontextbewusstheit großer Sprachmodelle zur effektiven Werkzeugnutzung | Paper | HyperAI