HyperAIHyperAI
منذ 2 أشهر

شبكات التبادل العشوائي المتبقية لمعالجة السلاسل الطويلة بسرعة

Andis Draguns; Emīls Ozoliņš; Agris Šostaks; Matīss Apinis; Kārlis Freivalds
شبكات التبادل العشوائي المتبقية لمعالجة السلاسل الطويلة بسرعة
الملخص

الاهتمام هو آلية شائعة الاستخدام في معالجة التسلسلات، ولكنه يتمتع بتعقيد من الدرجة O(n^2)، مما يحول دون تطبيقه على التسلسلات الطويلة. الشبكة العصبية Shuffle-Exchange التي تم تقديمها مؤخرًا تقدم بديلًا حاسوبيًا فعالًا، مما يمكن من نمذجة الارتباطات طويلة المدى في وقت O(n log n). ومع ذلك، فإن النموذج معقد للغاية، حيث يتضمن آلية بوابات متطورة مشتقة من وحدة التكرار المشروطة (Gated Recurrent Unit). في هذا البحث، نقدم متغيرًا بسيطًا وخفيف الوزن للشبكة Shuffle-Exchange، والذي يستند إلى شبكة باقية (Residual Network) تستخدم GELU وتطبيع الطبقة (Layer Normalization). لا يقتصر النموذج المقترح على توسيع نطاقه إلى التسلسلات الأطول فحسب، بل إنه يتقارب بشكل أسرع ويوفر دقة أفضل. يتفوق على الشبكة Shuffle-Exchange في مهمة نمذجة اللغة LAMBADA ويحقق أداءً رائدًا في مجموعة بيانات MusicNet لتحويل الموسيقى بينما يكون كفؤًا في عدد المعلمات. نوضح كيفية دمج الشبكة Shuffle-Exchange المحسنة مع طبقات الإدراك المشترك (Convolutional Layers)، مما يجعلها عنصرًا مفيدًا في تطبيقات معالجة التسلسلات الطويلة.

شبكات التبادل العشوائي المتبقية لمعالجة السلاسل الطويلة بسرعة | أحدث الأوراق البحثية | HyperAI