HyperAI

الذاكرة الطويلة والقصيرة المدى الممتدة xLSTM

في 8 مايو 2024، قام Sepp Hochreiter، مقدم ومؤسس LSTM، بتحميل ورقة بحثية أولية لـ xLSTM على arXiv "xLSTM: الذاكرة الطويلة قصيرة المدى الممتدة". يثير المقال سؤالاً: إلى أي مدى يمكننا أن نذهب في نمذجة اللغة عندما نقوم بتوسيع نطاق LSTMs إلى مليارات المعلمات باستخدام أحدث التقنيات في LLMs؟ تقدم هذه الورقة تقدمًا كبيرًا في تصميم LSTM، وتتناول قيود LSTM التقليدية، وتقدم ميزات جديدة لتحسين أدائها في نماذج اللغة الكبيرة (LLMs). 

xLSTM تعني الذاكرة الطويلة قصيرة المدى الممتدة. يعيد xLSTM إحياء فكرة الذاكرة طويلة المدى القصيرة (LSTM)، أي مفهوم دائرة الأخطاء الثابتة والبوابات. تم تقديم LSTM بواسطة Sepp Hochreiter و Jürgen Schmidhuber، وهي عبارة عن بنية تعلم عميق ثورية في التسعينيات تتغلب بنجاح على مشكلة التدرج المتلاشي للمهام المتسلسلة مثل السلاسل الزمنية أو نمذجة اللغة. منذ ذلك الحين، نجحت نماذج اللغة طويلة المدى في الصمود أمام اختبار الزمن وساهمت في العديد من قصص نجاح التعلم العميق، وعلى وجه الخصوص فقد شكلت أول نموذج لغة واسع النطاق (LLM). ومع ذلك، فإن ظهور تكنولوجيا المحولات مع الاهتمام الذاتي الموازي في جوهرها كان بمثابة بداية عصر جديد، متجاوزًا LSTM في الحجم.

مقدمة عن عائلة xLSTM ومكوناتها

كما هو موضح في الشكل أعلاه، يتم تقديم نظرة عامة على عائلة xLSTM ومكوناتها. من اليسار إلى اليمين:

  1. خلية ذاكرة LSTM الأصلية مع دائرة خطأ ثابتة وبوابة.
  2. تم تقديم وحدتين تخزين جديدتين:
  • sLSTM(عددي (LSTM) مع البوابات الأسيّة وتقنية الذاكرة الهجينة الجديدة.
  • mLSTM(مصفوفة LSTM) مع البوابات الأسيّة، والتدريب المتوازي، وقاعدة تحديث التباين، وتخزين مصفوفة حالات الخلايا.

3. قم بدمج خلايا الذاكرة mLSTM وsLSTM في الكتلة المتبقية لتشكيل كتلة xLSTM.

4. يتم إنشاء بنية xLSTM عن طريق تكديس كتل xLSTM مع البقايا.

أهمية xLSTM لنموذج اللغة الكبير (LLM)

كان لتقديم بنية xLSTM تأثيرًا كبيرًا على تطوير وأداء نماذج اللغة الكبيرة (LLMs). من خلال معالجة القيود التي يفرضها نظام LSTM التقليدي ودمج مكونات جديدة مثل البوابات الأسيّة وذاكرة المصفوفة والهندسة المعمارية القابلة للتوازي، يفتح نظام xLSTM إمكانيات جديدة لنظام LLM.

تتمثل إحدى المزايا الرئيسية لـ xLSTM للنماذج اللغوية الكبيرة (LLM) في قدرتها على التعامل بفعالية مع التسلسلات الطويلة ومهام نمذجة اللغة واسعة النطاق. إن التعقيد الزمني الخطي وتعقيد الذاكرة الثابت لـ xLSTM يجعله مناسبًا تمامًا لمعالجة بيانات نصية طويلة دون التسبب في زيادة تربيعية في التكلفة الحسابية واستخدام الذاكرة المرتبطة بالنماذج المستندة إلى المحول. تُعد ميزة الكفاءة هذه ذات قيمة خاصة لمعلمي القانون، الذين عادةً ما يحتاجون إلى معالجة كميات كبيرة من بيانات النص أثناء التدريب والاستدلال.

علاوة على ذلك، يظهر xLSTM أداءً محسنًا في نمذجة اللغة مع درجات حيرة أقل مقارنةً بـ Transformer LLM وRWKV، مما يشير إلى إمكاناته لتحسين جودة وتماسك النص الناتج في LLM. تتيح ذاكرة المصفوفة وآلية البوابات الأسيّة في xLSTM التقاط معلومات أكثر شمولاً وتفصيلاً من بيانات التدريب والاحتفاظ بها، وبالتالي تحقيق فهم أفضل للغة وقدرات توليد أفضل.

يوضح قانون التوسع المقترح في ورقة xLSTM أن ميزة الأداء الخاصة بـ xLSTM لا تزال موجودة حتى عند تدريبها على مجموعات بيانات أكبر (مثل مجموعة SlimPajama التي تحتوي على 300B رمز). يعد هذا التوسع أمرًا بالغ الأهمية بالنسبة لمعاهد إدارة التعلم (LLMs) لأنها تعتمد عادةً على كميات كبيرة من بيانات التدريب لتحقيق الأداء المتطور. إن قدرة xLSTM على الحفاظ على كفاءتها وقوة النمذجة على نطاق أوسع تجعلها بنية واعدة لمستقبل برامج الماجستير في القانون.

علاوة على ذلك، تسمح مرونة بنية xLSTM بنسب مختلفة من وحدات mLSTM وsLSTM، مما يوفر فرصًا للتخصيص والتكيف مع مهام نمذجة اللغة المحددة. تعتبر هذه القدرة على التكيف ذات قيمة كبيرة بالنسبة لدرجة الماجستير في القانون لأنها غالبًا ما يتم تطبيقها على مجموعة متنوعة من مهام معالجة اللغة الطبيعية ذات المتطلبات والخصائص المختلفة.

كما يفتح هيكل xLSTM أيضًا آفاقًا جديدة للبحث والابتكار في مجال LLM. إن تقديم البوابات الأسيّة وذاكرة المصفوفة في xLSTM يتحدى هيمنة النماذج القائمة على المحولات ويشجع على استكشاف البنى البديلة التي قد توفر كفاءة وأداءً أعلى. قد يلهم نجاح xLSTM المزيد من الأبحاث حول هياكل الذاكرة الجديدة وآليات البوابات وتقنيات التوازي لـ LLMs.

باختصار، توفر بنية xLSTM تحسينات كبيرة لـ LLM. إن كفاءتها وقابليتها للتوسع وقدراتها المحسنة في نمذجة اللغة تجعلها بديلاً واعدًا للنماذج المستندة إلى المحولات. مع استمرار تقدم مجال ماجستير القانون، من المرجح أن تساهم الأفكار والابتكارات التي قدمتها ماجستير إدارة الأعمال في تشكيل التطورات المستقبلية ودفع حدود ما هو ممكن في معالجة اللغة الطبيعية. أرست ورقة xLSTM الأساس لعصر جديد من برامج الماجستير في القانون التي يمكنها معالجة كميات كبيرة من بيانات النصوص بكفاءة مع توفير فهم وتوليد لغة عالية الجودة.

مراجع

【1】xLSTM: تحسين الذاكرة طويلة المدى وقصيرة المدى لنماذج اللغة الكبيرة