الاستخلاص المتعدد الوثائق في المجال المفتوح: دراسة شاملة لحساسية النماذج تحت عملية الاسترجاع

تلخيص الوثائق المتعددة (MDS) يفترض أن مجموعة من الوثائق ذات العلاقة بالموضوع تُقدَّم كمدخلات. في الواقع، ليست هذه المجموعة دائمًا متاحة؛ بل يُفترض استرجاعها بناءً على حاجة معرفية، أي سؤال أو بيان موضوع، وهو ما نسميه بـ "تلخيص مفتوح المجال" (open-domain MDS). ندرس هذا السياق الأصعب من خلال صياغة المهمة بشكل رسمي، واستخدام مجموعات بيانات موجودة، ومحركات استرجاع، وأدوات تلخيص لبناء نموذج تجريبي. من خلال تقييم مكثف تلقائيًا وإنسانيًا، نستنتج ما يلي: (1) تُعاني أدوات التلخيص الحديثة من انخفاض كبير في الأداء عند تطبيقها على مهام التلخيص في المجال المفتوح، (2) التدريب الإضافي في بيئة المجال المفتوح يمكن أن يقلل من حساسية النماذج تجاه استرجاع غير دقيق، و(3) تكون أدوات التلخيص غير حساسة تجاه تكرار الوثائق أو ترتيبها في النتائج المسترجعة، لكنها حساسة جدًا لأخطاء أخرى، مثل استرجاع وثائق غير ذات صلة. بناءً على نتائجنا، نقدّم توجيهات عملية لتمكين الأبحاث المستقبلية في مجال التلخيص المفتوح المجال، مثل كيفية اختيار عدد الوثائق المسترجعة المناسبة للتلخيص. تشير نتائجنا إلى أن الحاجة ماسة إلى طرق جديدة في الاسترجاع والتلخيص، إلى جانب موارد مُعلَّمة لتدريب النماذج وتقييمها، من أجل تحقيق تقدم مستقبلي في هذا المجال.