منذ 16 أيام
استكشاف منهجي لتقليل التكرار في تلخيص المستندات الطويلة
Wen Xiao, Giuseppe Carenini

الملخص
تحليلنا للمجموعات الكبيرة من البيانات المخصصة لتلخيص النصوص يشير إلى أن التكرار يُعد مشكلة جسيمة عند تلخيص النصوص الطويلة. ومع ذلك، لم تُدرس عملية تقليل التكرار بشكل شامل في مجال التلخيص العصبي. في هذا العمل، نستعرض بشكل منهجي ونقارن بين أساليب مختلفة للتعامل مع مشكلة التكرار عند تلخيص النصوص الطويلة. وبشكل خاص، نصنف الأساليب الحالية إلى فئات بناءً على متى وكيفية أخذ التكرار بعين الاعتبار. ثم، ضمن سياق هذه الفئات، نقترح ثلاث طرق إضافية توازن بين عدم التكرار والأهمية بطريقة عامة ومُتعددة الاستخدامات. وفي سلسلة من التجارب، نُظهر أن الأساليب المقترحة تحقق أفضل النتائج المُحققة حتى الآن من حيث مقاييس ROUGE على مجموعتي بيانات بحثيتين، وهما PubMed وarXiv، مع تقليل كبير في مستوى التكرار.