نموذج عمق التعزيز للملخص التحليلي

النماذج العصبية القائمة على الانتباه (Attention) والمترجمة بتقنية الشبكات العصبية المتكررة (RNN) لتقديم ملخصات استخراجية (Abstractive Summarization) حققت أداءً جيدًا في التعامل مع التسلسلات الدخلية والخارجة القصيرة. ومع ذلك، فإن هذه النماذج غالبًا ما تتضمن عبارات متكررة وغير متناسقة عند العمل مع الوثائق الطويلة والملخصات. نقدم في هذا البحث نموذج شبكة عصبية جديد يحتوي على انتباه داخلي مبتكر (Intra-Attention)، حيث يتم التركيز بشكل منفصل على المدخلات والمخرجات التي تُولَد بشكل مستمر، بالإضافة إلى طريقة تدريب جديدة تجمع بين التعلم الإشرافي القياسي لتوقع الكلمات وتعلم التعزيز (Reinforcement Learning - RL). النماذج التي يتم تدريبها باستخدام التعلم الإشرافي فقط غالبًا ما تعاني من "انحياز التعرض" (Exposure Bias) - وهي تفترض أن الحقيقة الأرضية متوفرة في كل خطوة أثناء التدريب. ومع ذلك، عندما يتم الجمع بين توقع الكلمات القياسي وتدريب توقع التسلسل العالمي لتعلم التعزيز، فإن الملخصات الناتجة تصبح أكثر قابلية للقراءة. قمنا بتوظيف هذا النموذج على مجموعة بيانات CNN/Daily Mail ومجموعة بيانات نيويورك تايمز. حقق نموذجنا درجة ROUGE-1 بلغت 41.16 على مجموعة بيانات CNN/Daily Mail، وهو تحسين على النماذج الرائدة سابقًا. كما أظهرت التقييم البشري أن نموذجنا ينتج ملخصات ذات جودة أعلى.