Outlier-effiziente Hopfield-Layers für große transformerbasierte Modelle

Wir stellen ein ausreißer-effizientes modernes Hopfield-Modell (bezeichnet als $\mathrm{OutEffHop}$) vor und nutzen es, um das Problem der Ausreißer-Ineffizienz bei der Training riesiger transformer-basierter Modelle anzugehen. Unser Hauptbeitrag ist ein neuartiges assoziatives Gedächtnismodell, das ausreißer-effiziente assoziative Gedächtnisabrufe ermöglicht. Interessanterweise lässt sich dieses Gedächtnismodell als modellbasierte Interpretation eines ausreißer-effizienten Aufmerksamkeitsmechanismus (${\rm Softmax}_1$) verstehen: Es stellt eine Approximation des Abrufprozesses des $\mathrm{OutEffHop}$-Modells dar. Methodisch ermöglicht dies die Einführung neuer, ausreißer-effizienter Hopfield-Schichten als leistungsstarke Alternativen zu herkömmlichen Aufmerksamkeitsmechanismen mit überlegener Leistung nach Quantisierung. Theoretisch bewahrt das ausreißer-effiziente moderne Hopfield-Modell die wünschenswerten Eigenschaften herkömmlicher moderner Hopfield-Modelle bei gleichzeitiger Verbesserung, insbesondere die Konvergenz zu festen Punkten und die exponentielle Speicherkapazität. Empirisch zeigen wir die Wirksamkeit des vorgeschlagenen Modells anhand großskaliger transformer-basierter und Hopfield-basierter Modelle (einschließlich BERT, OPT, ViT und STanHop-Net), wobei es mit State-of-the-Art-Methoden wie $\mathtt{Clipped_Softmax}$ und $\mathtt{Gated_Attention}$ verglichen wird. Insbesondere erreicht $\mathrm{OutEffHop}$ eine durchschnittliche Reduktion von 22+\% bei der Kurtosis und 26+\% bei der maximalen Unendlichkeitsnorm der Modellausgaben über vier Modelle hinweg. Der Quellcode ist unter \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} verfügbar; die Modelle befinden sich auf dem \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; weitere Aktualisierungen sind auf \href{https://arxiv.org/abs/2404.03828}{arXiv} zu finden.