منذ 9 أيام

OmniNet: تمثيلات شاملة من خلال النماذج القائمة على المحولات

Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler

الملخص

يُقدّم هذا البحث نموذج تمثيلات شمولية من خلال المحولات (OmniNet). في نموذج OmniNet، بدلًا من الحفاظ على مجال استقبال أفقي صارم، يُسمح لكل رمز (token) بالانتباه إلى جميع الرموز في الشبكة بأكملها. ويمكن تفسير هذه العملية على أنها شكل من أشكال آلية الانتباه المُكثفة أو المتطرفة، والتي تمتلك مجال استقبال يشمل العرض والعمق الكاملين للشبكة. ولتحقيق ذلك، يتم تعلّم انتباه شمولي عبر نموذج ميتا-مُتعلّم (meta-learner)، والذي يُعدّ في الأساس نموذجًا يعتمد على الانتباه الذاتي (self-attention). ولتقليل التكاليف الحسابية الباهظة المرتبطة بالانتباه إلى المجال الكامل للإدراك، نستفيد من نماذج الانتباه الذاتي الفعّالة مثل نماذج القاعدة الأساسية (kernel-based) (Choromanski et al.)، وانتباه الرتبة المنخفضة (low-rank attention) (Wang et al.)، و/أو Big Bird (Zaheer et al.) كنموذج ميتا-مُتعلّم. أُجريت تجارب واسعة النطاق على نمذجة اللغة التوليدية التسلسلية (LM1B، C4)، والترجمة الآلية، ونطاق التسلسل الطويل (Long Range Arena - LRA)، وتمييز الصور. أظهرت النتائج تحسّنًا ملحوظًا في هذه المهام، بما في ذلك تحقيق أداء مُتقدمًا على مستوى الحد الأقصى (state-of-the-art) في مجموعات بيانات LM1B، وWMT'14 En-De/En-Fr، وLong Range Arena. علاوةً على ذلك، أدى استخدام التمثيلات الشمولية في نماذج المحولات البصرية (Vision Transformers) إلى تحسينات كبيرة في مهام تمييز الصور، سواء في بيئة التعلم القليل (few-shot learning) أو في إعدادات التخصيص الدقيق (fine-tuning).