HyperAIHyperAI
منذ شهر واحد

الاهتمام التكيفي في نماذج ترانسفورمر

Sainbayar Sukhbaatar; Edouard Grave; Piotr Bojanowski; Armand Joulin
الاهتمام التكيفي في نماذج ترانسفورمر
الملخص

نقترح آلية انتباه ذاتي جديدة قادرة على تعلم مدى الانتباه الأمثل لها. هذا يسمح لنا بتوسيع حجم السياق الأقصى المستخدم في نماذج Transformer بشكل كبير، مع الحفاظ على السيطرة على حجم الذاكرة الزمنية ووقت الحسابات. نوضح فعالية منهجيتنا في مهمة نمذجة اللغة على مستوى الحروف، حيث حققنا أداءً يتفوق على أفضل ما سبق في مجموعتي بيانات text8 وenwiki8 باستخدام سياق أقصى يصل إلى 8000 حرفاً (8k characters).

الاهتمام التكيفي في نماذج ترانسفورمر | أحدث الأوراق البحثية | HyperAI