HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الانتباه المُقنَّعة: إعادة التفكير في تعزيز المُحَوِّل

Zhihao Fan Yeyun Gong Dayiheng Liu Zhongyu Wei Siyuan Wang Jian Jiao Nan Duan Ruofei Zhang Xuanjing Huang

الملخص

الـ Transformer هو شبكة عصبية تعتمد على الانتباه، ويتكون من طبقتين فرعيتين، وهما: شبكة الانتباه الذاتي (SAN) وشبكة التغذية الأمامية (FFN). وقد ركزت الأبحاث الحالية على تحسين كل من الطبقتين الفرعيتين بشكل منفصل بهدف تعزيز قدرة الـ Transformer في تمثيل النصوص. في هذه الورقة، نقدّم فهمًا جديدًا لشبكة الانتباه الذاتي (SAN) وشبكة التغذية الأمامية (FFN) باعتبارهما شبكتين للاستشعار بالقناع (MANs)، ونُظهر أن كليهما يُعدان حالتين خاصتين من MANs تستخدمان مصفوفات قناع ثابتة. ومع ذلك، فإن مصفوفات القناع الثابتة تحد من القدرة على نمذجة الترابط المحلي في تعلم تمثيل النصوص. ولذلك، نُقدّم طبقة جديدة تُسمى "شبكة الانتباه بالقناع الديناميكي" (DMAN)، والتي تمتلك مصفوفة قناع قابلة للتعلم، وتُمكّن من نمذجة الترابط المحلي بشكل تكيفي. ولدمج المزايا المتميزة لـ DMAN وSAN وFFN، نقترح بنية متسلسلة من الطبقات لدمج أنواع الثلاث طبقات. وقد أظهرت تجارب واسعة على مهام متعددة، منها الترجمة الآلية العصبية وتلخيص النصوص، أن نموذجنا يتفوق على الـ Transformer الأصلي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp