Couches Hopfield efficaces en présence d'outliers pour les grands modèles basés sur les Transformers

Nous introduisons un modèle moderne de Hopfield résistant aux valeurs aberrantes (désigné par $\mathrm{OutEffHop}$) et l'utilisons pour résoudre le problème d'inefficacité face aux valeurs aberrantes dans l'entraînement de grands modèles basés sur les transformateurs. Notre contribution principale est un nouveau modèle de mémoire associative permettant des récupérations de mémoire résistantes aux valeurs aberrantes. De manière intéressante, ce modèle de mémoire se traduit par une interprétation fondée sur un modèle d’un mécanisme d’attention résistant aux valeurs aberrantes (${\rm Softmax}_1$) : il constitue une approximation du processus de récupération de mémoire du $\mathrm{OutEffHop}$. Méthodologiquement, cela nous permet d’introduire de nouveaux blocs de Hopfield résistants aux valeurs aberrantes, offrant des alternatives puissantes aux mécanismes d’attention traditionnels, avec des performances supérieures après quantification. Théoriquement, le modèle moderne de Hopfield résistant aux valeurs aberrantes préserve et améliore les propriétés souhaitables des modèles de Hopfield modernes standards, notamment la convergence vers des points fixes et une capacité de stockage exponentielle. Expérimentalement, nous démontrons l’efficacité du modèle proposé sur des modèles à grande échelle basés sur les transformateurs et les modèles de Hopfield (y compris BERT, OPT, ViT et STanHop-Net), en le comparant à des méthodes de pointe telles que $\mathtt{Clipped_Softmax}$ et $\mathtt{Gated_Attention}$. Notamment, $\mathrm{OutEffHop}$ réalise une réduction moyenne de 22+\% de la kurtosis moyenne et de 26+\% de la norme infinie maximale des sorties des modèles sur quatre architectures. Le code est disponible sur \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} ; les modèles sont accessibles sur \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub} ; les mises à jour futures sont publiées sur \href{https://arxiv.org/abs/2404.03828}{arXiv}.