HyperAIHyperAI

Command Palette

Search for a command to run...

يُمكّن الانتباه النافذة القصيرة من التذكّر على المدى الطويل

Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou

Abstract

أظهرت الدراسات الحديثة أن الهياكل الهجينة التي تجمع بين طبقات الانتباه من نوع Softmax مع نافذة منزلقة وطبقات الشبكة العصبية التكرارية الخطية (RNN) تتفوق على كل من هذه الهياكل عند استخدامها بشكل منفصل. ومع ذلك، لا يزال تأثير طول النافذة والتفاعل بين طبقات الانتباه من نوع Softmax والطبقات الخطية للـ RNN موضوعًا مُستَهَلًا في الأبحاث. في هذا العمل، نقدّم SWAX، وهي هياكل هجينة تتكون من طبقة انتباه بنافذة منزلقة وطبقة RNN خطية من نوع xLSTM.يُعدّ اكتشاف SWAX مُفاجئًا من حيث الطبيعة، حيث تبين أن النافذة المنزلقة الأكبر لا تُحسّن الأداء في المهام ذات السياق الطويل. بل على العكس، يُشجّع الانتباه بنافذة قصيرة النموذج على تحسين ذاكرة النموذج طويلة المدى في xLSTM، من خلال الاعتماد الأقل على آلية الانتباه من نوع Softmax في استرجاع السياق الطويل.أما المشكلة الناتجة عن النافذة المنزلقة الصغيرة فهي أنها تؤثر سلبًا على المهام ذات السياق القصير، والتي يمكن تحسين أدائها بفضل المعلومات المستمدة من نوافذ منزلقة متوسطة الحجم. ولحل هذه المشكلة، نُدرّب نموذج SWAX باستخدام تغيير عشوائي في حجم النافذة المنزلقة، ما يُجبر النموذج على الاستفادة من نافذة سياق أطول بالإضافة إلى ذاكرة xLSTM. وقد أظهرت نتائج SWAX المدرب باستخدام أحجام نافذة عشوائية تفوقًا ملحوظًا على الانتباه بنافذة ثابتة في كلا المسائل القصيرة والطويلة السياق.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp