HyperAIHyperAI

Command Palette

Search for a command to run...

Couches Hopfield efficaces en présence d'outliers pour les grands modèles basés sur les Transformers

Jerry Yao-Chieh Hu Pei-Hsuan Chang Robin Luo Hong-Yu Chen Weijian Li Wei-Po Wang Han Liu

Résumé

Nous introduisons un modèle moderne de Hopfield résistant aux valeurs aberrantes (désigné par OutEffHop\mathrm{OutEffHop}OutEffHop) et l'utilisons pour résoudre le problème d'inefficacité face aux valeurs aberrantes dans l'entraînement de grands modèles basés sur les transformateurs. Notre contribution principale est un nouveau modèle de mémoire associative permettant des récupérations de mémoire résistantes aux valeurs aberrantes. De manière intéressante, ce modèle de mémoire se traduit par une interprétation fondée sur un modèle d’un mécanisme d’attention résistant aux valeurs aberrantes (Softmax1{\rm Softmax}_1Softmax1) : il constitue une approximation du processus de récupération de mémoire du OutEffHop\mathrm{OutEffHop}OutEffHop. Méthodologiquement, cela nous permet d’introduire de nouveaux blocs de Hopfield résistants aux valeurs aberrantes, offrant des alternatives puissantes aux mécanismes d’attention traditionnels, avec des performances supérieures après quantification. Théoriquement, le modèle moderne de Hopfield résistant aux valeurs aberrantes préserve et améliore les propriétés souhaitables des modèles de Hopfield modernes standards, notamment la convergence vers des points fixes et une capacité de stockage exponentielle. Expérimentalement, nous démontrons l’efficacité du modèle proposé sur des modèles à grande échelle basés sur les transformateurs et les modèles de Hopfield (y compris BERT, OPT, ViT et STanHop-Net), en le comparant à des méthodes de pointe telles que ClippedSoftmax\mathtt{Clipped_Softmax}ClippedSoftmax et GatedAttention\mathtt{Gated_Attention}GatedAttention. Notamment, OutEffHop\mathrm{OutEffHop}OutEffHop réalise une réduction moyenne de 22+% de la kurtosis moyenne et de 26+% de la norme infinie maximale des sorties des modèles sur quatre architectures. Le code est disponible sur \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} ; les modèles sont accessibles sur \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub} ; les mises à jour futures sont publiées sur \href{https://arxiv.org/abs/2404.03828}{arXiv}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp