منذ 2 أشهر

استخدام متحول مُدرب مسبق لتقديم تلخيص نصوص بكفاءة عالية من حيث العيّنات

Urvashi Khandelwal; Kevin Clark; Dan Jurafsky; Lukasz Kaiser

الملخص

قد أدى تدريب النماذج اللغوية (LM) إلى تحقيق أداء مثير للإعجاب وكفاءة عينات في مجموعة متنوعة من مهام فهم اللغة. ومع ذلك، لا يزال غير واضح كيفية استخدام أفضل للنماذج اللغوية المدربة مسبقًا في مهام التوليد مثل التلخيص الاستخراجي، خاصة لتعزيز كفاءة العينات. في هذه الإعدادات التسلسلية-التوليدية، قام العمل السابق بتجربة تحميل الأوزان المدربة مسبقًا في شبكات المُشفِّر (encoder) و/أو المُفكِّك (decoder)، لكنه استخدم أوزان انتباه المُشفِّر-المُفكِّك التي لم يتم تدريبها مسبقًا. بدلاً من ذلك، نحن نستخدم شبكة مُفكِّك فقط مدربة مسبقًا، حيث يقوم نفس نموذج Transformer LM بتشفير المصدر وتوليد الملخص. هذا يضمن أن جميع المعاملات في الشبكة، بما في ذلك تلك التي تحكم الانتباه على حالات المصدر، قد تم تدريبها قبل خطوة التعديل الدقيق. تظهر التجارب على مجموعة بيانات CNN/Daily Mail أن نموذج Transformer LM المدرب لدينا بشكل كبير يتفوق على شبكات Transformer المُشفِّر-المُفكِّك المدربة مسبقًا في إعدادات البيانات المحدودة. على سبيل المثال، يحقق 13.1 ROUGE-2 باستخدام فقط 1% من بيانات التدريب (حوالي 3000 مثال)، بينما تسجل النماذج المُشفِّر-المُفكِّك المدربة مسبقًا درجة 2.3 ROUGE-2.