HyperAIHyperAI
منذ 2 أشهر

نمذجة التسلسلات الطويلة بكفاءة باستخدام الفضاءات الحالة المهيكلة

Albert Gu; Karan Goel; Christopher Ré
نمذجة التسلسلات الطويلة بكفاءة باستخدام الفضاءات الحالة المهيكلة
الملخص

من الأهداف المركزية في نمذجة التسلسلات هو تصميم نموذج مبدئي واحد قادر على التعامل مع بيانات التسلسلات عبر مجموعة من الوسائط والمهام، خاصة فيما يتعلق بالاعتماديات طويلة المدى. رغم أن النماذج التقليدية مثل الشبكات العصبية المتكررة (RNNs)، والشبكات العصبية الم��ية (CNNs)، ونماذج التحويل (Transformers) لديها نسخ متخصصة لالتقاط الاعتمادات طويلة المدى، إلا أنها لا تزال تعاني من صعوبات في التعامل مع تسلسلات طويلة جدًا تتكون من (10000) خطوة أو أكثر. اقترحت طريقة واعدة حديثًا نمذجة التسلسلات عن طريق محاكاة النموذج الفضائي للحالة الأساسي (SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) )، وأظهرت أن للاختيارات المناسبة لمصفوفة الحالة ( A )، يمكن لهذا النظام التعامل مع الاعتمادات طويلة المدى رياضيًا وتجريبيًا. ومع ذلك، فإن هذه الطريقة تتطلب حسابات وذاكرة مكلفة بشكل كبير، مما يجعلها غير قابلة للتطبيق كحل عام لنمذجة التسلسلات.نقترح نموذج سلسلة الحالة المنظمة (S4) استنادًا إلى معلمة جديدة لنظام SSM، ونوضح أنه يمكن حسابه بكفاءة أكبر بكثير من الأساليب السابقة مع الحفاظ على قوتها النظرية. يشمل تقنيتنا شرط تطبيق مصفوفة ( A ) بتصحيح ذو رتبة منخفضة، مما يسمح بتقسيمها بشكل مستقر ويقلل نظام SSM إلى الحساب المعروف جيدًا لـ نواة كوشي (Cauchy kernel). حقق S4 نتائج تجريبية قوية عبر مجموعة متنوعة من المقاييس المرتكزة، بما في ذلك:1. دقة بنسبة 91٪ على CIFAR-10 المتتابع دون أي زيادة في البيانات أو خسائر مساعدة، وهي نسبة تعادل تلك التي حققتها شبكة ResNet ثنائية الأبعاد أكبر حجمًا.2. تقليص الفجوة بين Transformers بشكل كبير في مهام نمذجة الصور واللغة، بينما يتم إجراء الجيل (60) مرة أسرع.3. أفضل النتائج على كل مهمة من مقاييس Long Range Arena، بما في ذلك حل مهمة Path-X الصعبة التي يصل طولها إلى 16 ألف خطوة والتي فشلت فيها جميع الأعمال السابقة، مع الحفاظ على الكفاءة مثل جميع المنافسين.

نمذجة التسلسلات الطويلة بكفاءة باستخدام الفضاءات الحالة المهيكلة | أحدث الأوراق البحثية | HyperAI