شبكات التبادل العشوائي المتبقية لمعالجة السلاسل الطويلة بسرعة

الاهتمام هو آلية شائعة الاستخدام في معالجة التسلسلات، ولكنه يتمتع بتعقيد من الدرجة O(n^2)، مما يحول دون تطبيقه على التسلسلات الطويلة. الشبكة العصبية Shuffle-Exchange التي تم تقديمها مؤخرًا تقدم بديلًا حاسوبيًا فعالًا، مما يمكن من نمذجة الارتباطات طويلة المدى في وقت O(n log n). ومع ذلك، فإن النموذج معقد للغاية، حيث يتضمن آلية بوابات متطورة مشتقة من وحدة التكرار المشروطة (Gated Recurrent Unit). في هذا البحث، نقدم متغيرًا بسيطًا وخفيف الوزن للشبكة Shuffle-Exchange، والذي يستند إلى شبكة باقية (Residual Network) تستخدم GELU وتطبيع الطبقة (Layer Normalization). لا يقتصر النموذج المقترح على توسيع نطاقه إلى التسلسلات الأطول فحسب، بل إنه يتقارب بشكل أسرع ويوفر دقة أفضل. يتفوق على الشبكة Shuffle-Exchange في مهمة نمذجة اللغة LAMBADA ويحقق أداءً رائدًا في مجموعة بيانات MusicNet لتحويل الموسيقى بينما يكون كفؤًا في عدد المعلمات. نوضح كيفية دمج الشبكة Shuffle-Exchange المحسنة مع طبقات الإدراك المشترك (Convolutional Layers)، مما يجعلها عنصرًا مفيدًا في تطبيقات معالجة التسلسلات الطويلة.