HyperAIHyperAI
منذ 2 أشهر

لتكن نماذج الفضاء الحالة (SSMs) شبكات عصبية مت convo: النمذجة بفضاء الحالة باستخدام الانقباضات المثلى للтенسورات

Yan Ru Pei
لتكن نماذج الفضاء الحالة (SSMs) شبكات عصبية مت convo: النمذجة بفضاء الحالة باستخدام الانقباضات المثلى للтенسورات
الملخص

نقدم شبكة Centaurus، وهي فئة من الشبكات تتكون من كتل نماذج الفضاء الحالة المعممة (SSM)، حيث يمكن معالجة عمليات SSM كانكماشات الأنسور (tensor contractions) أثناء التدريب. يمكن بعد ذلك تحديد الترتيب الأمثل لانكماشات الأنسور بشكل منهجي لكل كتلة SSM لتعظيم كفاءة التدريب. هذا يسمح بالمزيد من المرونة في تصميم كتل SSM خارج التكوين القابل للتفصيل حسب العمق الذي يتم تنفيذه عادةً. ستستلهم الخيارات التصميمية الجديدة من الكتل الإقحامية التقليدية، بما في ذلك الإقحامات الجماعية، والإقحامات الكاملة، والكتل الزجاجية (bottleneck blocks). نقوم بتصميم شبكة Centaurus باستخدام مزيج من هذه الكتل لتحقيق توازن بين حجم الشبكة والأداء، وكذلك بين كفاءة الذاكرة والحسابات خلال كلٍّ من التدريب والاستدلال. نوضح أن هذا التصميم غير المتجانس للشبكة يتفوق على نظيراته المتجانسة في مهام معالجة الصوت الخام مثل رصد الكلمات الرئيسية، وإزالة الضوضاء من الكلام، وتمييز الكلام تلقائيًا (ASR). بالنسبة لتمييز الكلام تلقائيًا (ASR)، تعد Centaurus أول شبكة تحقق أداءً تنافسيًا يمكن أن تكون بالكامل مستندة إلى الفضاء الحالة، دون استخدام أي تكرار غير خطي (LSTMs)، أو إقحام صريح (CNNs)، أو آلية انتباه (surrogate) اهتمام. الرمز المصدر متاح كمواد مكملة على https://openreview.net/forum?id=PkpNRmBZ32