HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

DoPE: Denoising Rotary Position Embedding

Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

DoPE: Denoising Rotary Position Embedding

Abstract

Die Rotations-Positionseingabe (Rotary Position Embedding, RoPE) in Transformer-Modellen weist inhärente Grenzen auf, die die Extrapolation der Sequenzlänge schwächen. Wir interpretieren die Aufmerksamkeitsmatrix mit Positionscode erneut als verrauschte Merkmalskarte und schlagen eine trainingsfreie Methode namens Denoising Positional Encoding (DoPE) vor, die auf der truncierten Matrixentropie basiert, um Ausreißer-Frequenzbänder in der Merkmalskarte zu detektieren. Unter Ausnutzung der Rauschcharakteristika der Merkmalskarte reparametrisieren wir diese anschließend mittels einer parameterfreien Gauß-Verteilung, um eine robuste Extrapolation zu erreichen. Unsere Methode enthüllt theoretisch die zugrundeliegende Ursache des Aufmerksamkeits-Sink-Phänomens sowie dessen Zusammenhang mit der truncierten Matrixentropie. Experimente auf Aufgaben des „Needle-in-a-Haystack“-Typs und vielfältiger Kontextlern-Szenarien zeigen, dass DoPE die Retrieval-Genauigkeit und die Stabilität des Schließens über erweiterte Kontexte (bis zu 64K Tokens) erheblich verbessert. Die Ergebnisse belegen, dass die Denoisierung von Positions-Eingaben effektiv Aufmerksamkeits-Sinks reduziert und ausgeglichene Aufmerksamkeitsmuster wiederherstellt, wodurch eine einfache, aber leistungsfähige Lösung für die Verbesserung der Längen-Verallgemeinerung bereitgestellt wird. Unser Projekt findet sich unter: https://The-physical-picture-of-LLMs.github.io

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DoPE: Denoising Rotary Position Embedding | Forschungsarbeiten | HyperAI