منذ 9 أيام

الانتباه الأولي: الانتباه الذاتي من خلال التحليل المصفوفي القيمي للKernel غير المتماثل في التمثيل الأولي

Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens

الملخص

في الآونة الأخيرة، ظهرت سلسلة جديدة من الدراسات التي تهدف إلى فهم وتحسين الانتباه الذاتي في نماذج المحولات (Transformers) من خلال اعتباره آلة نواة (kernel machine). ومع ذلك، فإن الدراسات الحالية تطبق أساليب مخصصة للنوى المتماثلة على الانتباه الذاتي غير المتماثل، مما يُحدث فجوة كبيرة بين الفهم التحليلي والتنفيذ العددي. في هذه الورقة، نقدّم منظورًا جديدًا لتمثيل وتحسين الانتباه الذاتي من خلال تحليل القيم الفردية للنواة غير المتماثل (Asymmetric Kernel Singular Value Decomposition - KSVD)، والذي يُحفّزه أيضًا الخاصية الشائعة للنواة ذات الرتبة المنخفضة (low-rank) التي تُلاحظ عادة في الطبقات العميقة. من خلال KSVD غير المتماثل، نحقق ما يلي: أ) صياغة تمثيل أولي-مزدوج (primal-dual) للانتباه الذاتي، حيث يتم تحويل هدف التحسين إلى تكبير التباينات في التقديرات الناتجة عن الانتباه؛ ب) اقتراح آلية انتباه جديدة تُسمى "الانتباه الأولي" (Primal-Attention) عبر التمثيل الأولي لـ KSVD، مع تجنّب الحساب الصريح لمصفوفة النواة في الشكل المزدوج؛ ج) باستخدام شروط كاروش-كون-تكر (KKT)، نُثبت أن الحل الثابت لمشكلة تحسين KSVD في الانتباه الأولي يُنتج هدفًا قيمته صفر. وبهذه الطريقة، يمكن تنفيذ تحسين KSVD من خلال تقليل بسيط لخسارة الت régularization، مما يعزز خاصية الرتبة المنخفضة دون الحاجة إلى عمليات تحليل إضافية. أظهرت التجارب العددية أداءً متميزًا يُعدّ من بين الأفضل في المجال، مع تحسين في الكفاءة. علاوة على ذلك، نُظهر أن تطبيق KSVD في التحسين يُ-Regularize (يُنظم) الانتباه الأولي بانخفاض أوضح في القيم الفردية مقارنةً بالانتباه الذاتي القياسي، مما يؤكد بشكل إضافي الإمكانات الكبيرة لطرقنا. إلى حد علمنا، هذه أول ورقة تقدّم تمثيلًا أوليًا-مزدوجًا للنواة غير المتماثلة في الانتباه الذاتي، وتطبّقه بنجاح في التمثيل والتحسين.