Command Palette
Search for a command to run...
Couches Hopfield efficaces en présence d'outliers pour les grands modèles basés sur les Transformers
Couches Hopfield efficaces en présence d'outliers pour les grands modèles basés sur les Transformers
Jerry Yao-Chieh Hu Pei-Hsuan Chang Robin Luo Hong-Yu Chen Weijian Li Wei-Po Wang Han Liu
Résumé
Nous introduisons un modèle moderne de Hopfield résistant aux valeurs aberrantes (désigné par OutEffHop) et l'utilisons pour résoudre le problème d'inefficacité face aux valeurs aberrantes dans l'entraînement de grands modèles basés sur les transformateurs. Notre contribution principale est un nouveau modèle de mémoire associative permettant des récupérations de mémoire résistantes aux valeurs aberrantes. De manière intéressante, ce modèle de mémoire se traduit par une interprétation fondée sur un modèle d’un mécanisme d’attention résistant aux valeurs aberrantes (Softmax1) : il constitue une approximation du processus de récupération de mémoire du OutEffHop. Méthodologiquement, cela nous permet d’introduire de nouveaux blocs de Hopfield résistants aux valeurs aberrantes, offrant des alternatives puissantes aux mécanismes d’attention traditionnels, avec des performances supérieures après quantification. Théoriquement, le modèle moderne de Hopfield résistant aux valeurs aberrantes préserve et améliore les propriétés souhaitables des modèles de Hopfield modernes standards, notamment la convergence vers des points fixes et une capacité de stockage exponentielle. Expérimentalement, nous démontrons l’efficacité du modèle proposé sur des modèles à grande échelle basés sur les transformateurs et les modèles de Hopfield (y compris BERT, OPT, ViT et STanHop-Net), en le comparant à des méthodes de pointe telles que ClippedSoftmax et GatedAttention. Notamment, OutEffHop réalise une réduction moyenne de 22+% de la kurtosis moyenne et de 26+% de la norme infinie maximale des sorties des modèles sur quatre architectures. Le code est disponible sur \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} ; les modèles sont accessibles sur \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub} ; les mises à jour futures sont publiées sur \href{https://arxiv.org/abs/2404.03828}{arXiv}.