منذ 17 أيام

شبكات الانتباه المُقنَّعة: إعادة التفكير في تعزيز المُحَوِّل

Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang

الملخص

الـ Transformer هو شبكة عصبية تعتمد على الانتباه، ويتكون من طبقتين فرعيتين، وهما: شبكة الانتباه الذاتي (SAN) وشبكة التغذية الأمامية (FFN). وقد ركزت الأبحاث الحالية على تحسين كل من الطبقتين الفرعيتين بشكل منفصل بهدف تعزيز قدرة الـ Transformer في تمثيل النصوص. في هذه الورقة، نقدّم فهمًا جديدًا لشبكة الانتباه الذاتي (SAN) وشبكة التغذية الأمامية (FFN) باعتبارهما شبكتين للاستشعار بالقناع (MANs)، ونُظهر أن كليهما يُعدان حالتين خاصتين من MANs تستخدمان مصفوفات قناع ثابتة. ومع ذلك، فإن مصفوفات القناع الثابتة تحد من القدرة على نمذجة الترابط المحلي في تعلم تمثيل النصوص. ولذلك، نُقدّم طبقة جديدة تُسمى "شبكة الانتباه بالقناع الديناميكي" (DMAN)، والتي تمتلك مصفوفة قناع قابلة للتعلم، وتُمكّن من نمذجة الترابط المحلي بشكل تكيفي. ولدمج المزايا المتميزة لـ DMAN وSAN وFFN، نقترح بنية متسلسلة من الطبقات لدمج أنواع الثلاث طبقات. وقد أظهرت تجارب واسعة على مهام متعددة، منها الترجمة الآلية العصبية وتلخيص النصوص، أن نموذجنا يتفوق على الـ Transformer الأصلي.