منذ 11 أيام

تحويل Transformers إلى أشكال DGNNs

Jie Zhang, Mao-Hsuan Mao, Bo-Wei Chiu, Min-Te Sun

الملخص

أحدث التطورات في التعلم العميق راسخة معمارية الترانسفورمر كنمط نمذجة سائد. ويعتبر آلية الانتباه الذاتي، التي تقيّم درجة التشابه بين مصفوفتي الاستعلام والمحفظة لتعديل مصفوفة القيمة، أحد العناصر الأساسية في نجاح الترانسفورمر. ويُظهر هذا الإجراء تشابهًا ملحوظًا مع التحويل الثنائي الرسومي (digraph convolution)، مما يحفز على التحقيق فيما إذا كان يمكن استخدام التحويل الثنائي الرسومي كبديل لآلية الانتباه الذاتي. وفي هذه الدراسة، نُصِّف هذا المفهوم من خلال تقديم وحدة اصطناعية موحدة للتحويل الثنائي الرسومي مستندة إلى تحويل فورييه الثنائي الرسومي. ويؤدي هذا النموذج، الذي نسميه "المحوّل" (Converter)، إلى تحويل فعّال للترانسفورمر إلى صيغة شبكة عصبية رسمية موجهة (DGNN). وقد تم اختبار "المحوّل" على معيار Long-Range Arena، وتصنيف المستندات الطويلة، وتصنيف التصنيف النظامي القائم على تسلسل الحمض النووي (DNA). وأظهرت النتائج التجريبية أن "المحوّل" يحقق أداءً متفوقًا مع الحفاظ على الكفاءة الحسابية وبساطة البنية المعمارية، ما يجعله بديلًا خفيف الوزن لكنه قوي للترانسفورمر.