HyperAIHyperAI
منذ 17 أيام

مُتَعَلِّمُ التَّحَوُّلِ الْمُتَفَرِّعُ الْمُتَنَوِّعُ

Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li, Tie-Yan Liu
مُتَعَلِّمُ التَّحَوُّلِ الْمُتَفَرِّعُ الْمُتَنَوِّعُ
الملخص

بينما يُعدّ المعمارية متعددة الفروع أحد العناصر الأساسية الناجحة في مهام رؤية الحاسوب، إلا أنها لم تُدرَس بشكل كافٍ في معالجة اللغة الطبيعية، خصوصًا في مهام تعلّم التسلسلات. في هذا العمل، نقترح نسخة بسيطة ولكن فعّالة من نموذج Transformer تُسمّى Transformer المُنتبه متعدد الفروع (MAT بشكل مختصر)، حيث يُحسب طبقة الانتباه كمتوسط لعدة فروع، وكل فرع يمثل طبقة انتباه متعددة الرؤوس مستقلة. نستفيد من تقنيتين تدرّبان لتنظيم التدريب: إزالة الفرع (drop-branch)، التي تُزيل عشوائيًا فروعًا فردية أثناء التدريب، وتهيئة مجاورة (proximal initialization)، التي تستخدم نموذجًا مُدرّبًا مسبقًا من Transformer لتهيئة عدة فروع. أظهرت التجارب على مهام الترجمة الآلية، وإنشاء الشفرة البرمجية، وفهم اللغة الطبيعية، أن هذه النسخة البسيطة من Transformer تُحقّق تحسينات كبيرة. يُمكن الوصول إلى كودنا عبر الرابط: \url{https://github.com/HA-Transformer}.