HyperAIHyperAI

Command Palette

Search for a command to run...

Outlier-effiziente Hopfield-Layers für große transformerbasierte Modelle

Jerry Yao-Chieh Hu Pei-Hsuan Chang Robin Luo Hong-Yu Chen Weijian Li Wei-Po Wang Han Liu

Zusammenfassung

Wir stellen ein ausreißer-effizientes modernes Hopfield-Modell (bezeichnet als OutEffHop\mathrm{OutEffHop}OutEffHop) vor und nutzen es, um das Problem der Ausreißer-Ineffizienz bei der Training riesiger transformer-basierter Modelle anzugehen. Unser Hauptbeitrag ist ein neuartiges assoziatives Gedächtnismodell, das ausreißer-effiziente assoziative Gedächtnisabrufe ermöglicht. Interessanterweise lässt sich dieses Gedächtnismodell als modellbasierte Interpretation eines ausreißer-effizienten Aufmerksamkeitsmechanismus (Softmax1{\rm Softmax}_1Softmax1) verstehen: Es stellt eine Approximation des Abrufprozesses des OutEffHop\mathrm{OutEffHop}OutEffHop-Modells dar. Methodisch ermöglicht dies die Einführung neuer, ausreißer-effizienter Hopfield-Schichten als leistungsstarke Alternativen zu herkömmlichen Aufmerksamkeitsmechanismen mit überlegener Leistung nach Quantisierung. Theoretisch bewahrt das ausreißer-effiziente moderne Hopfield-Modell die wünschenswerten Eigenschaften herkömmlicher moderner Hopfield-Modelle bei gleichzeitiger Verbesserung, insbesondere die Konvergenz zu festen Punkten und die exponentielle Speicherkapazität. Empirisch zeigen wir die Wirksamkeit des vorgeschlagenen Modells anhand großskaliger transformer-basierter und Hopfield-basierter Modelle (einschließlich BERT, OPT, ViT und STanHop-Net), wobei es mit State-of-the-Art-Methoden wie ClippedSoftmax\mathtt{Clipped_Softmax}ClippedSoftmax und GatedAttention\mathtt{Gated_Attention}GatedAttention verglichen wird. Insbesondere erreicht OutEffHop\mathrm{OutEffHop}OutEffHop eine durchschnittliche Reduktion von 22+% bei der Kurtosis und 26+% bei der maximalen Unendlichkeitsnorm der Modellausgaben über vier Modelle hinweg. Der Quellcode ist unter \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} verfügbar; die Modelle befinden sich auf dem \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; weitere Aktualisierungen sind auf \href{https://arxiv.org/abs/2404.03828}{arXiv} zu finden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp