R-Transformer: شبكة عصبية متكررة معززة لـ Transformer

الشبكات العصبية المتكررة كانت لفترة طويلة الخيار المهيمن في نمذجة التسلسلات. ومع ذلك، تعاني بشدة من مشكلتين: عدم القدرة على التقاط التبعيات طويلة الأجل للغاية وعدم القدرة على توازي إجراء الحسابات التسلسلية. ولذلك، تم اقتراح العديد من نماذج التسلسل غير المتكررة مؤخرًا والتي تعتمد على عمليات التجميع والانتباه. بشكل ملحوظ، أثبتت النماذج التي تستخدم الانتباه متعدد الرؤوس مثل نموذج Transformer فعاليةً كبيرةً في التقاط التبعيات طويلة الأجل في مجموعة متنوعة من مهام نمذجة التسلسلات. ومع ذلك، فإن هذه النماذج تفتقر إلى المكونات اللازمة لنمذجة الهياكل المحلية في التسلسلات وتعتمد بشكل كبير على غرسات الموضع التي لها آثار محدودة وتتطلب جهدًا تصميميًا كبيرًا. في هذا البحث، نقترح R-Transformer الذي يتمتع بمزايا كل من الشبكات العصبية المتكررة وآلية الانتباه متعدد الرؤوس مع تجنب عيوبهما الخاصة. يمكن للنموذج المقترح أن يتقاطع بفعالية مع الهياكل المحلية والتبعيات العالمية طويلة الأجل في التسلسلات دون استخدام أي غرسات للموضع. قمنا بتقييم R-Transformer من خلال تجارب واسعة النطاق باستخدام بيانات من مجالات متنوعة، وأظهرت النتائج التجريبية أن R-Transformer يتفوق بكثير على أفضل الأساليب الحالية في معظم المهام. لقد جعلنا الكود متاحًا للجمهور عبر الرابط \url{https://github.com/DSE-MSU/R-transformer}.