التدريب المسبق يلتقي بالتجزئة: نموذج هجين لاستخلاص ملخصات متعددة الوثائق
في هذا العصر الذي امتلأ فيه الإنترنت بمعلومات ضخمة، أصبح استخلاص وتصنيف المعلومات ذات الصلة يدويًا أمرًا صعبًا للغاية ومستهلكًا للوقت. ولهذا السبب، أصبح من الضروري توافر أداة تلخيص تلقائية للوثائق، لتستخرج المعلومات المهمة من مجموعة من الوثائق التي تتناول موضوعات متشابهة أو مرتبطة. يتيح تلخيص النصوص متعددة الوثائق استخلاص المحتوى المهم والمرتبط من عدة وثائق مع تقليل التكرار قدر الإمكان. وقد تم في هذه الدراسة تطوير نظام لتلخيص النصوص متعددة الوثائق باستخدام نهج استخلاص غير مُدرَّب (unsupervised extractive-based). ويُعد النموذج المقترح تكاملًا لنموذجين لتعلم آلي: نموذج T5 المُدرَّب مسبقًا باستخدام معمارية المحولات (Transformer)، وخوارزمية تجميع K-Means. وتم إجراء التجارب على مجموعة بيانات أخبار معيارية تُعرف بـ "مؤتمر فهم الوثائق" (Document Understanding Conference - DUC2004). واستُخدمت مقاييس تقييم ROUGE لتقييم أداء النموذج المقترح على مجموعة DUC2004. وأظهرت النتائج تفوقًا ملحوظًا في الأداء مقارنةً بالطرق غير المُدرَّبة المتطورة حاليًا في المجال.