HyperAIHyperAI
منذ 3 أشهر

الانتباه كـ RNN

Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori
الانتباه كـ RNN
الملخص

مثّل ظهور نماذج التحويل (Transformers) ثورة كبيرة في نمذجة التسلسلات، حيث قدّم هيكلًا متميزًا الأداء يمكنه الاستفادة من التوازي على وحدات معالجة الرسوميات (GPU). ومع ذلك، فإن نماذج Transformers مكلفة من حيث الحوسبة أثناء الاستدلال، مما يحد من تطبيقاتها، خاصة في البيئات ذات الموارد المحدودة (مثل الأجهزة المحمولة والأجهزة المدمجة). لمعالجة هذه المشكلة، نقوم أولاً (1) بعرض أن الانتباه يمكن اعتباره نوعًا خاصًا من الشبكات العصبية التكرارية (RNN) قادرة على حساب مخرجاتها التكرارية من نوع "عدة إلى واحد" بكفاءة. ثم (2) نوضح أن النماذج الشائعة القائمة على الانتباه، مثل Transformers، يمكن اعتبارها أشكالًا مُعدّلة من الشبكات التكرارية. لكن على عكس الشبكات التكرارية التقليدية (مثل LSTMs)، لا يمكن تحديث هذه النماذج بكفاءة عند إدخال رموز جديدة، وهي خاصية مهمة في نمذجة التسلسلات. ولحل هذه المشكلة، نقدّم (3) طريقة جديدة فعّالة لحساب مخرجات الانتباه من نوع "عدة إلى عدة" كجزء من الشبكة التكرارية، باستخدام خوارزمية المسح المتوازية (parallel prefix scan). وباستناد إلى الصيغة الجديدة للانتباه، نقدّم (4) وحدة جديدة تُسمى Aaren، وهي وحدة تعتمد على الانتباه، وتُميّز بقدرتها على (i) التدريب بالتوازي (مثل Transformers)، و(ii) التحديث بكفاءة مع إدخال رموز جديدة، مع الحاجة فقط إلى ذاكرة ثابتة أثناء الاستدلال (مثل الشبكات التكرارية التقليدية). من الناحية التجريبية، نُظهر أن Aaren تحقق أداءً مماثلاً لـ Transformers على 38 مجموعة بيانات موزعة عبر أربع مجموعات شائعة من المشكلات التسلسلية: التعلم التكراري، التنبؤ بالأحداث، تصنيف السلاسل الزمنية، والتنبؤ بالسلاسل الزمنية، مع كونها أكثر كفاءة من حيث الوقت والذاكرة.