ارفع نفسك: توليد نص مدعوم بالاسترجاع مع الذاكرة الذاتية

بفضل الوصول المباشر إلى المدخلات البشرية المكتوبة كذاكرة، حققت النماذج المدعومة بالاسترجاع (Retrieval-Augmented Generation) تقدماً كبيراً في مجموعة واسعة من مهام توليد النصوص. وبما أن الذاكرة الأفضل من المفترض أن تُحفّز توليدًا أفضل (نُعرّف هذه العلاقة بـ"المشكلة الأساسية"). تتمثل الطريقة التقليدية لاسترجاع الذاكرة في اختيار المدخلات التي تُظهر أعلى درجة تشابه مع المدخلات المقدمة. ومع ذلك، يُعدّ هذا الأسلوب محدوداً بجودة المجموعة الثابتة التي تستمد منها الذاكرة. في هذا البحث، وباستكشاف التكافؤ في المشكلة الأساسية: حيث أن التوليد الأفضل يُحفّز أيضًا على تحسين الذاكرة، نُقدّم إطاراً جديداً يُسمّى selfmem، والذي يعالج هذه القيود من خلال استخدام تكراري لنموذج توليد مدعوم بالاسترجاع لإنشاء مجموعة ذاكرة غير محدودة، واستخدام منتقي ذاكرة لاختيار إخراج واحد كذاكرة للجولة التوليدية التالية. وهذا يمكّن النموذج من الاستفادة من إخراجه الخاص، والذي نسميه "الذاكرة الذاتية"، لتحسين عملية التوليد. وقد قُمنا بتقييم فعالية selfmem في ثلاث مهام مختلفة لتوليد النصوص: الترجمة الآلية العصبية، وتلخيص النصوص الاستنتاجية، وتنمية الحوار، ضمن نمطين للتوليد: النموذج الصغير المُعدّل بدقة (fine-tuned small model) والنماذج الكبيرة القائمة على القليل من الأمثلة (few-shot LLM). وحققت طريقة our approach نتائج رائدة على مستوى الحالة الحالية (state-of-the-art) في أربعة اتجاهات ضمن مجموعتي البيانات JRC-Acquis، XSum (50.3 ROUGE-1)، وBigPatent (62.9 ROUGE-1)، مما يُظهر الإمكانات الكامنة للذاكرة الذاتية في تعزيز نماذج التوليد المدعومة بالاسترجاع. علاوةً على ذلك، قمنا بتحليل مفصل لكل عنصر ضمن إطار selfmem لتحديد العوائق وتقديم رؤى لدعم الأبحاث المستقبلية.