GenCompareSum: منهجية هجينة غير مقيدة للتلخيص تعتمد على التميز

تلخيص النص (TS) هو مهمة مهمة في معالجة اللغة الطبيعية (NLP). وقد تم استخدام النماذج اللغوية المُدرّبة مسبقًا (PLMs) لتحسين أداء تلخيص النص. ومع ذلك، تُعاني هذه النماذج من قيود تتعلق باحتياجها إلى بيانات تدريب مُعلَّمة، بالإضافة إلى آلية الانتباه التي تستخدمها، والتي تجعلها غالبًا غير مناسبة لمعالجة المستندات الطويلة. ولحل هذه المشكلة، نقترح منهجًا هجينًا غير مُدرَّب (unsupervised) يدمج بين التلخيص الاستخلاصي (extractive) والملخص التوليدية (abstractive)، حيث نمرّ خلال المستند، ونُولِّد قطعًا نصية بارزة تمثل النقاط الأساسية فيه. ثم نختار الجمل الأكثر أهمية في المستند من خلال اختيار الجمل الأكثر تشابهًا مع النصوص المولَّدة، وذلك باستخدام مقياس BERTScore. وقد قمنا بتقييم فعالية توليد هذه القطع النصية البارزة ودورها في توجيه عملية التلخيص الاستخلاصي على مستندات من المجالات الطبية والعلمية العامة. كما قارنا بين أداء المستندات الطويلة والقصيرة باستخدام نماذج مختلفة للتوليد النصي، والتي تم تدريبها بشكل دقيق (fine-tuned) لتوليد استفسارات ذات صلة أو عناوين مستندات. وأظهرت النتائج أن منهجنا الهجين يتفوق على الطرق غير المُدرَّبة الحالية، وكذلك على الطرق المتطورة المُدرَّبة بحالة مراقبة (supervised)، وذلك رغم عدم احتياجنا إلى كم هائل من البيانات المُعلَّمة.