المحولات الرسمية تثري الانتباه الذاتي في نماذج الترانسفورمر!

الشبكات العصبية التحويلية (Transformers)، المعروفة بآلية الانتباه الذاتي (self-attention mechanism)، حققت أداءً رائدًا في مجموعة متنوعة من المهام في معالجة اللغة الطبيعية ورؤية الحاسوب ونمذجة السلاسل الزمنية وغيرها. ومع ذلك، فإن أحد التحديات المرتبطة بالنموذج العميق للشبكات التحويلية هو مشكلة الإفراط في التسطيح (oversmoothing problem)، حيث تتقارب تمثيلات الطبقات إلى قيم غير قابلة للتفرقة، مما يؤدي إلى تدهور كبير في الأداء. نقوم بتفسير آلية الانتباه الذاتي الأصلية كمرشح بسيط للرسوم البيانية (graph filter) وإعادة تصميمها من منظور معالجة إشارات الرسوم البيانية (Graph Signal Processing - GSP). نقترح استخدام آلية الانتباه الذاتي المستندة إلى مرشح الرسوم البيانية (Graph-Filter-Based Self-Attention - GFSA) لتعلم نموذج عام ولكنه فعال، مع تعقيد قليل أكبر من آلية الانتباه الذاتي الأصلية. نوضح أن GFSA يحسن أداء الشبكات التحويلية في مجالات متنوعة، بما في ذلك رؤية الحاسوب ومعالجة اللغة الطبيعية ومهمات مستوى الرسم البياني وتمييز الكلام تصنيف الكود.