BanditSum: التلخيص الاستخراجي ك_bandit_ سياقي

في هذا البحث، نقترح طريقة جديدة لتدريب الشبكات العصبية على إجراء تلخيص مستخلص للوثيقة الواحدة دون الحاجة إلى ملصقات مستخلصة تم إنشاؤها بطريقة تقريبية. نطلق على منهجيتنا اسم BanditSum لأنها تعتبر التلخيص المستخلص كمشكلة بانديت سياقية (Contextual Bandit - CB)، حيث تتلقى النموذج وثيقة يجب تلخيصها (السياق)، ويختار النموذج سلسلة من الجمل ليتم تضمينها في الملخص (الفعل). يتم استخدام خوارزمية تعليم تعزيزي بالدرجات السياسية (Policy Gradient Reinforcement Learning) لتدريب النموذج على اختيار سلاسل الجمل التي تحقق أعلى درجة في مؤشر ROUGE. نقوم بمجموعة من التجارب التي تظهر أن BanditSum قادر على تحقيق درجات ROUGE أفضل أو مماثلة لأفضل التقنيات الحالية في مجال التلخيص المستخلص، كما يتبين أنه يتقارب باستخدام عدد أقل بكثير من خطوات التحديث مقارنة بالتقنيات المنافسة. بالإضافة إلى ذلك، نوضح بشكل تجريبي أن BanditSum يؤدي بشكل أفضل بكثير من التقنيات المنافسة عندما تكون الجمل الملخصة الجيدة متواجدة في أجزاء متأخرة من الوثيقة الأصلية.