HyperAIHyperAI
منذ 16 أيام

بيغ بيرد: نماذج التحويل لسلاسل أطول

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
بيغ بيرد: نماذج التحويل لسلاسل أطول
الملخص

نموذجات القواعد القائمة على Transformers، مثل BERT، تمثل واحدة من أكثر نماذج التعلم العميق نجاحًا في مجال معالجة اللغة الطبيعية (NLP). وللأسف، إحدى القيود الأساسية فيها هي الاعتماد التربيعي (وخاصة من حيث الذاكرة) على طول التسلسل النصي بسبب آلية الانتباه الكاملة. وللتغلب على هذه المشكلة، نقترح نموذج BigBird، وهو آلية انتباه متباعدة (Sparse Attention) تقلل هذا الاعتماد التربيعي إلى اعتماد خطي. ونُظهر أن BigBird هو مُقرب عالمي للدوال التسلسلية، وأنه كامل تورينغ (Turing complete)، وبالتالي يحتفظ بهذه الخصائص المميزة للنموذج التقليدي القائم على الانتباه الكامل التربيعي. أثناء التحليل النظري، كشفت النتائج عن بعض الفوائد الناتجة عن وجود رموز عالمية (Global Tokens) بثابت $O(1)$ (مثل CLS)، والتي تنتبه إلى كامل التسلسل كجزء من آلية الانتباه المتباعدة. وتمكّن آلية الانتباه المتباعدة المقترحة من التعامل مع تسلسلات طولها تصل إلى 8 أضعاف الطول الأقصى الممكن سابقًا باستخدام نفس المعدات الحاسوبية. وبسبب القدرة على معالجة سياقات أطول، تتحسن أداء BigBird بشكل كبير في مهام متعددة في مجال NLP مثل الإجابة على الأسئلة وتلخيص النصوص. كما نقترح تطبيقات جديدة في مجال بيانات الجينوميات.

بيغ بيرد: نماذج التحويل لسلاسل أطول | أحدث الأوراق البحثية | HyperAI