Command Palette
Search for a command to run...
Outlier-effiziente Hopfield-Layers für große transformerbasierte Modelle
Outlier-effiziente Hopfield-Layers für große transformerbasierte Modelle
Jerry Yao-Chieh Hu Pei-Hsuan Chang Robin Luo Hong-Yu Chen Weijian Li Wei-Po Wang Han Liu
Zusammenfassung
Wir stellen ein ausreißer-effizientes modernes Hopfield-Modell (bezeichnet als OutEffHop) vor und nutzen es, um das Problem der Ausreißer-Ineffizienz bei der Training riesiger transformer-basierter Modelle anzugehen. Unser Hauptbeitrag ist ein neuartiges assoziatives Gedächtnismodell, das ausreißer-effiziente assoziative Gedächtnisabrufe ermöglicht. Interessanterweise lässt sich dieses Gedächtnismodell als modellbasierte Interpretation eines ausreißer-effizienten Aufmerksamkeitsmechanismus (Softmax1) verstehen: Es stellt eine Approximation des Abrufprozesses des OutEffHop-Modells dar. Methodisch ermöglicht dies die Einführung neuer, ausreißer-effizienter Hopfield-Schichten als leistungsstarke Alternativen zu herkömmlichen Aufmerksamkeitsmechanismen mit überlegener Leistung nach Quantisierung. Theoretisch bewahrt das ausreißer-effiziente moderne Hopfield-Modell die wünschenswerten Eigenschaften herkömmlicher moderner Hopfield-Modelle bei gleichzeitiger Verbesserung, insbesondere die Konvergenz zu festen Punkten und die exponentielle Speicherkapazität. Empirisch zeigen wir die Wirksamkeit des vorgeschlagenen Modells anhand großskaliger transformer-basierter und Hopfield-basierter Modelle (einschließlich BERT, OPT, ViT und STanHop-Net), wobei es mit State-of-the-Art-Methoden wie ClippedSoftmax und GatedAttention verglichen wird. Insbesondere erreicht OutEffHop eine durchschnittliche Reduktion von 22+% bei der Kurtosis und 26+% bei der maximalen Unendlichkeitsnorm der Modellausgaben über vier Modelle hinweg. Der Quellcode ist unter \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} verfügbar; die Modelle befinden sich auf dem \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; weitere Aktualisierungen sind auf \href{https://arxiv.org/abs/2404.03828}{arXiv} zu finden.