معلومات بارزة لتحفيز توجيه المحتوى في التلخيص الاستخراجي القائم على الدفعات

يمكن للنماذج اللغوية الكبيرة (LLMs) إنتاج ملخصات سلسة في مجالات مختلفة باستخدام تقنيات التحفيز، مما يقلل من الحاجة إلى تدريب النماذج لتطبيقات الملخص. ومع ذلك، فإن صياغة تحفيزات فعالة توجه النماذج اللغوية الكبيرة لإنتاج ملخصات بمستوى التفاصيل المناسب وأسلوب الكتابة المطلوب لا تزال تمثل تحديًا. في هذا البحث، نستكشف استخدام المعلومات البارزة المستخرجة من الوثيقة المصدر لتعزيز تحفيزات الملخص. نوضح أن إضافة الكلمات الرئيسية في التحفيز يمكن أن تحسن مؤشر ROUGE F1 والذاكرة الاسترجاعية، مما يجعل الملخصات المنتجة أكثر شبهاً بالمرجع وأكثر اكتمالاً. يمكن للعدد المتغير للكلمات الرئيسية أن يتحكم في التوازن بين الدقة والذاكرة الاسترجاعية. علاوة على ذلك، كشفت تحليلاتنا أن دمج المعلومات البارزة على مستوى الجمل أفضل من المستوى الكلامي أو الجملة. ومع ذلك، فإن الأثر على الظواهر الوهمية ليس إيجابيًا بشكل عام عبر النماذج اللغوية الكبيرة المختلفة. لإجراء هذا التحليل، قدمنا مستخرج الإشارة الكلامية (SigExt)، وهو نموذج خفيف الوزن يمكن تعديله لاستخراج الكلمات الرئيسية البارزة. باستخدام SigExt، نحقق تحسينات مستقرة في مؤشر ROUGE عبر مجموعة متنوعة من البيانات والنماذج اللغوية الكبيرة ذات الأوزان المفتوحة والمملوكة دون أي تعديل في النماذج اللغوية الكبيرة. توفر نتائجنا رؤى حول كيفية الاستفادة من المعلومات البارزة في بناء أنظمة الملخص القائمة على التحفيز. سنقوم بإصدار شفرتنا البرمجية في \url{https://github.com/amazon-science/SigExt}