PromptRank: استخراج العبارات الرئيسية غير المُشرَّفة باستخدام المُحفِّز

تُشير مهمة استخراج العبارات الرئيسية إلى عملية اختيار تلقائي للعبارات من مستند معين لتلخيص محتواه الأساسي. وقد تم مؤخرًا تحقيق أداء متميز (SOTA) باستخدام خوارزميات تعتمد على التضمين (embedding)، والتي تصنف المرشحات وفقًا لدرجة تشابه تضميناتها مع تضمين المستند. ومع ذلك، تواجه هذه الحلول صعوبات في التعامل مع الفجوات في طول المستند والمرشحات، أو تفشل في استغلال النموذج اللغوي المُدرّب مسبقًا (PLM) بالكامل دون تدريب مخصص إضافي. ولحل هذه المشكلة، نقترح في هذا البحث منهجًا بسيطًا وفعّالًا غير مُعلَّم، يُسمى PromptRank، مبنيًا على نموذج لغوي مُدرّب مسبقًا (PLM) يعتمد على بنية مشفر-فكّار (encoder-decoder). بشكل محدد، يقوم PromptRank بتمرير المستند إلى الجزء المشفر، ثم يحسب احتمال توليد المرشح بواسطة الجزء الفكّار باستخدام نموذج مُعدّ مسبقًا (prompt). وقد قمنا بتقييم PromptRank بشكل واسع على ستة معايير شائعة الاستخدام. وقد أظهر PromptRank تفوقًا على أفضل أداء مُحقَّق حتى الآن (MDERank)، حيث تحسّن معدّل F1 بنسبة 34.18% و24.87% و17.57% على التوالي، عند إرجاع 5 و10 و15 نتيجة. هذا يُظهر الإمكانات الكبيرة لاستخدام النموذج المُعدّ مسبقًا (prompt) في استخراج العبارات الرئيسية غير المُعلَّمة. وسنُطلق الكود الخاص بنا عبر الرابط التالي: https://github.com/HLT-NLP/PromptRank.