طبقات هوبفيلد الفعّالة في معالجة القيم الشاذة للنماذج الكبيرة القائمة على المحولات

نُقدِّم نموذج هوبفيلد الحديث الفعّال تجاه القيم الشاذة (يُشار إليه بـ $\mathrm{OutEffHop}$) ونستخدمه لمعالجة مشكلة عدم الفعالية تجاه القيم الشاذة في تدريب نماذج المحولات الضخمة القائمة على النماذج التحويلية. تكمن مساهمتنا الأساسية في نموذج ذاكرة ترابطية مبتكر يُمكّن من عمليات استرجاع ذاكرة فعّالة تجاه القيم الشاذة. من المثير للاهتمام أن هذا النموذج يُقدّم تفسيرًا قائمًا على النموذج لآلية انتباه فعّالة تجاه القيم الشاذة (${\rm Softmax}_1$): فهو تقريب لعملية استرجاع الذاكرة في نموذج $\mathrm{OutEffHop}$. من الناحية المنهجية، يتيح لنا ذلك إدخال طبقات هوبفيلد فعّالة تجاه القيم الشاذة، كبدائل قوية لآليات الانتباه التقليدية، مع أداء متفوّق بعد التكميم. من الناحية النظرية، يحتفظ نموذج هوبفيلد الحديث الفعّال تجاه القيم الشاذة بالخصائص المرغوبة في النماذج القياسية الحديثة لهوبفيلد، بما في ذلك التقارب إلى نقاط ثابتة وسعة تخزين أسيّة. من الناحية التجريبية، نُظهر فعالية النموذج المقترح عبر نماذج كبيرة القاعدة على المحولات ونماذج هوبفيلد (بما في ذلك BERT وOPT وViT وSTanHop-Net)، ونُقارنها بأساليب حديثة متقدمة مثل $\mathtt{Clipped_Softmax}$ و$\mathtt{Gated_Attention}$. وبشكل لافت، حقق $\mathrm{OutEffHop}$ تقليلًا متوسطًا بنسبة 22+\% في الكورتوزية المتوسطة، ونسبة 26+\% في الحد الأقصى ل(norm) اللانهاية لنتائج النموذج عبر أربع نماذج. يمكن الوصول إلى الكود عبر: \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}؛ والنموذج متاح على: \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}؛ والتحديثات المستقبلية متاحة عبر: \href{https://arxiv.org/abs/2404.03828}{arXiv}.