HyperAIHyperAI
منذ 9 أيام

مُدمج: تحويلة انتباه كاملة ذات تكلفة حسابية نادرة

Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai
مُدمج: تحويلة انتباه كاملة ذات تكلفة حسابية نادرة
الملخص

توفر نماذج التحويل (Transformers) فئة من البنية التحتية التعبيرية التي تُعد فعالة للغاية في نمذجة التسلسلات. ومع ذلك، فإن الحد الأقصى الرئيسي لهذه النماذج هو التعقيد الزمني والذاكرةي التربيعي $\mathcal{O}(L^2)$ بالنسبة لطول التسلسل في طبقات الانتباه، مما يحد من تطبيقها في التسلسلات الطويلة جدًا. تعتمد معظم الطرق الحالية على تباعد (sparsity) أو افتراضات ذات رتبة منخفضة (low-rank) في مصفوفة الانتباه لتقليل التكلفة، لكنها تتطلب التضحية بقدرة التعبير. بدلًا من ذلك، نقترح نموذج "Combiner"، الذي يوفر قدرة انتباه كاملة في كل رأس انتباه مع الحفاظ على تعقيد منخفض في الحساب والذاكرة. الفكرة الأساسية هي اعتبار آلية الانتباه الذاتي (self-attention) كتوقع شرطي على التضمينات (embeddings) في كل موقع، ثم تقريب التوزيع الشرطي باستخدام تحليل منظم (structured factorization). يمكن لكل موقع أن ينتبه إلى جميع المواقع الأخرى، إما من خلال انتباه مباشر، أو عبر انتباه غير مباشر إلى تلخيصات (abstractions)، والتي بدورها تمثل توقعات شرطية للتوسيعات من المناطق المحلية المقابلة. نُظهر أن معظم أنماط الانتباه المتباعدة المستخدمة في النماذج المتباعدة الحالية قادرة على توجيه تصميم هذا التحليل، مما يؤدي إلى تكلفة دون تربيعية ($\mathcal{O}(L\log(L))$ أو $\mathcal{O}(L\sqrt{L})$). يُعد "Combiner" بديلًا مباشرًا (drop-in replacement) لطبقات الانتباه في النماذج الحالية من Transformers، ويمكن تنفيذه بسهولة في الإطارات الشائعة. وقد أظهرت تقييمات تجريبية على مهام تسلسلية ذاتية التوليد (autoregressive) وثنائية الاتجاه (bidirectional) فعالية هذا النهج، حيث تم تحقيق نتائج منافسة على أعلى المستويات في عدة مهام نمذجة الصور والنصوص.

مُدمج: تحويلة انتباه كاملة ذات تكلفة حسابية نادرة | أحدث الأوراق البحثية | HyperAI