الانتباه النادر القائم على المحتوى بكفاءة مع المحولات التوجيهية

تم تبني الانتباه الذاتي مؤخرًا في مجموعة واسعة من مسائل نمذجة التسلسل. وعلى الرغم من فعاليته، يعاني الانتباه الذاتي من متطلبات حسابية وذاكرة تربيعية بالنسبة لطول التسلسل. ركزت النماذج الناجحة لتقليل هذه التعقيدات على الانتباه إلى نوافذ منزلقة محلية أو مجموعة صغيرة من المواقع المستقلة عن المحتوى. وتقترح هذه الدراسة تعلم أنماط انتباه نادرة ديناميكية تتجنب تخصيص الموارد الحسابية والذاكرة لانتباه محتوى غير ذي صلة بالاستعلام المطلوب. تعتمد هذه الدراسة على خطين من الأبحاث: فهي تجمع بين مرونة النماذج السابقة في الانتباه النادر القائم على المحتوى، وفوائد الكفاءة المحققة من النماذج القائمة على الانتباه النادر المحلي والزمني. يُعد نموذجنا، المسمى "Transformer التوجيهي"، مزودًا بوحدة توجيه نادرة تعتمد على خوارزمية k-means عبر الإنترنت، مما يقلل من التعقيد الكلي للانتباه من (O(n^2d)) إلى (O(n^{1.5}d)) بالنسبة لطول التسلسل (n) وبعد المخزن الداخلي (d). ونُظهر أن نموذجنا يتفوق على النماذج المشابهة من الانتباه النادر في مهام نمذجة اللغة على مجموعة بيانات Wikitext-103 (15.8 مقابل 18.3 لمعيار التباس)، وكذلك في مهام توليد الصور على مجموعة بيانات ImageNet-64 (3.43 مقابل 3.44 بت/بعد)، مع استخدام عدد أقل من طبقات الانتباه الذاتي. علاوةً على ذلك، حقق نموذجنا حالة جديدة من الأفضلية في مجموعة بيانات PG-19 المُعَدّة حديثًا، حيث توصل إلى قيمة لمعيار التباس تبلغ 33.2 باستخدام نموذج Transformer التوجيهي مكوّن من 22 طبقة، مدربًا على تسلسلات طولها 8192.